Python爬虫-爬取手机应用市场中APP下载量|电子爱好者

admin管理员组
文章数量:1560428

一、首先是爬取360手机助手应用市场信息，用来爬取360应用市场，App软件信息，现阶段代码只能爬取下载量，如需爬取别的信息，请自行添加代码。

使用方法：

1、在D盘根目录新建.tet文件，命名为App_name，并把App名称黏贴到文件内，格式如下：

2、直接运行就好。

最近比较忙，好久没更新博客了，为什么忙呢，是因为最近被派到“App专项治理组”做App治理工作了，在专班成立初期热心网友举报量比较多，天天处理举报问题，和统计被举报App的下载量，而且是5个应用市场下载量和，如果就几款App可能还好，但是每天处理几百款App，俺表示眼睛和手指头都抗议，这时我就想起了python，所以决定做5个爬虫，分别爬取5个应用市场上App信息，废话不多说，下面是我的代码：

1、第一种方法，使用字典完成。

# !/usr/bin/env python
# -*- coding: UTF-8 –*-
__author__ = 'Mr.Li'

import requests
from bs4 import BeautifulSoup
import xlsxwriter,time


def write_excel(name, download, type_name=0, url=0):
    # 全局变量row代表行号 0-2代表列数
    global row
    sheet.write(row, 0, row)
    sheet.write(row, 1, name)
    sheet.write(row, 2, download)

    row += 1


headers = {'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}


def App_download(url,app_name):
    # 获取地址
    i = 1
    try:
        time.sleep(0.5)
        req = requests.get(url=url,headers=headers)
        req.encoding = 'utf-8'

        # 获取的内容保存在变量
        html_all = req.text

        div_bf = BeautifulSoup(html_all, 'html.parser')  # 使用BeautifulSoup进行解析
        div = div_bf.find_all('div',class_='SeaCon')#查找SeaCon元素内容

        a_bf = BeautifulSoup(str(div), 'html.parser')  # 重新解析
        info = a_bf.find_all('li')  # 查找元素为'li'的内容,其中包括APP的名称和下载量信息
        name = info[0].dl.dd.h3.a.text.strip()
        all_list = []
        if name == app_name:

            download_num = BeautifulSoup(str(info[0]), 'html.parser')  # 重新解析
            texts = download_num.find_all('p', class_='downNum')#查找下载量
            find_download_num = texts[0].text.replace('\xa0'*8,'\n\n')[:-3]#去除不需要的信息
            print(name, find_download_num)
            write_excel(name,find_download_num)#写入xlsx文件
        else:
            find_download_num1= 'None'
            print(app_name,find_download_num1)
            write_excel(app_name,find_download_num1)

    except Exception as e:
        #print('error:%s,尝试重新获取'%(e,i))
        #print(url)
        if i != 3:
            App_download(url, app_name)
        i += 1

row = 1
# 新建一个excel文件
file = xlsxwriter.Workbook('360_applist.xlsx')
# 新建一个sheet
sheet = file.add_worksheet()
if __name__ == '__main__':
    path_file = "D:\\"
    Old_AppFlie = open(path_file + "App_name.txt").read()
    app_list = Old_AppFlie.split('\n')  # 把字符串转为列表
    #app_list = ['微信','1113123','支付宝','荔枝']
    for app_name in app_list:
        yyb_url = 'http://zhushou.360/search/index/?kw={app_name}'.format(app_name=app_name)
        App_download(yyb_url,app_name)
    file.close()

运行结果：

可以查到的，会显示下载量，如果在应用中查不到会显示None，并把结果写到360_applist.xlsx文件中。

　　已经过一段时间使用以上程序发现一个问题，如果所爬取的程序不存在，也就是在360应用市场中搜索不到的话，程序就会卡死，搜索不到指的是页面一个内容也没有，如下图：

　　这样的话程序会卡死，最终出错，这是因为我们程序中需要用到索引，在查询结果中进行索引，但是结果是空的，在使用索引就超范围了，所以会卡死报错，我们可以判断是，如果搜索不到内容及搜索结果为空也就是0，我在程序中做了判断，如果搜索结果长度不等于0就执行爬取下载量操作，然后下入数据，如果等于0就直接写入APP名称和None表示没有东西。

修改后代码：

# !/usr/bin/env python
# -*- coding: UTF-8 –*-
__author__ = 'Mr.Li'

import requests
from bs4 import BeautifulSoup
import

本文标签：下载量爬虫手机市场 Python

版权声明：本文标题：Python爬虫-爬取手机应用市场中APP下载量内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1727441129a1114976.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Python爬虫-爬取手机应用市场中APP下载量

更多相关文章

（原创）安卓跳转应用市场APP详情页的方式

应用内更新，直接跳转到对应手机应用市场

android 应用市场 审核速度,安卓市场上传APP软件要多长时间审核？

APP软件上传安卓苹果应用商店上架APP应用市场

360 搜索、UC 浏览器已被多个应用市场下架

Android应用如何跳转到应用市场详情页面

往360市场上传企业应用程序时，上传不成功

全部安卓应用市场地址

Android实现跳转到应用市场进行版本更新功能

安卓应用在各大应用市场上架方法

android 使用应用市场进行版本更新

android手机授权证书,浅谈国内安卓应用市场的授权书

App应用之提交到各大市场渠道

根据手机品牌跳转不同的应用市场

Android APP上线必不可少的应用市场！

Python爬虫-爬取手机应用市场中APP下载量

安卓应用发布市场

Android App跳转到应用市场

App上架应用市场操作流程

APP应用市场数据分析

发表评论

推荐文章

gitlab安装配置

计算机无法找到输出设备,电脑没声音找不到输出设备怎么办

腾达 N3 无限路由器升级

狂神说的全部笔记_2010年在商丘市买的笔记本电脑还用着，不舍得扔

APP被应用商店下架了怎么办？

热门文章

android 7.1 vivo x9,vivo x9 Android 版本7.1.2 换肤不生效

IntelliJ IDEA 2018.3 安装+永久激活

sqlalchemy.exc.ArgumentError: Mapper mapped class Myclass-＞myclass could not assemble any primary ke

电脑办公之基础操作（持续更新）

BA II Plus Professional Financial Calculator used for Financial management module

python连接windows远程桌面,如何使用Paramiko、Python在windows机器之间建立远程桌面连接...

Win10电脑浏览器连不上网

暴力破解Tenda企业路由

经验谈系列 我们应该怎么给父母配电脑

苹果发展到计算机,从天堂到地狱 十分钟看懂AIO兴衰存亡

最新文章

centos 7 进入单用户系统并且更改所有系统文件（systemctl set-default ctrl-alt-del.target，重启无限循环）

Ubuntu14.04系统登录密码正确进不了桌面死循环问题

如何解决关于SQLSERVER数据库安装时要求重启时(无限要求)重启问题？

为什么安装step7时要重启计算机,Step7 安装总是重启的解决办法

Ubuntu16.04 开机进不去系统，左上角光标一直闪，中间五个红点

w ndows7错误恢复,windows7错误恢复进不去循环 从根本上解决问题

无限循环计算机术语,解决电脑无限循环启动

MacBook更新系统空间不足无限重启无法退出更新程序

ssh出现反复重启解决方法

小米手机无限重启怎么办？

金蝶9.1标准版，Win7无限重启解决方法

笔记本老出现计算机,电脑老是自动重启,教您如何有效解决这个问题

SQL Server 2008重启问题等问题

linux shell 自动重启,自动重启服务的shell脚本代码

Android开发之设备稳定性测试(循环N次重启设备)

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

android 应用市场审核速度,安卓市场上传APP软件要多长时间审核？

经验谈系列我们应该怎么给父母配电脑

苹果发展到计算机,从天堂到地狱十分钟看懂AIO兴衰存亡

w ndows7错误恢复,windows7错误恢复进不去循环从根本上解决问题

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载