python爬虫app下载_Python爬虫之抓取APP下载链接|电子爱好者

admin管理员组
文章数量:1566351

前言

最近有个需求是批量下载安卓APP。显然，刀耕火种用手点是不科学的。于是尝试用Python写了一个半自动化的脚本。所谓半自动化，就是把下载链接批量抓取下来，然后一起贴到迅雷里进行下载，这样可以快速批量下载。

准备工作Python 2.7.11：下载python

Pycharm：下载Pycharm

其中python2和python3目前同步发行，我这里使用的是python2作为环境。Pycharm是一款比较高效的Python IDE，但是需要付费。

基本思路首先我们的目标网站：安卓市场

点击【应用】，进入我们的关键页面：

安卓市场.png跳转到应用界面后我们需要关注三个地方，下图红色方框标出：

应用页面.png

首先关注地址栏的URL，再关注免费下载按钮，然后关注底端的翻页选项。点击“免费下载”按钮就会立即下载相应的APP，所以我们的思路就是拿到这个点击下载的连接，就可以直接下载APP了。

编写爬虫第一个需要解决的点：我们怎么拿到上面说的下载链接？这里不得不介绍下浏览器展示网页的基本原理。说简单点，浏览器是一个类似解析器的工具，它得到HTML等代码的时候会按照相应的规则解析渲染，从而我们能够看到页面。

这里我使用的是谷歌浏览器，对着页面右键，点击“检查”，可以看到网页原本的HTML代码：

HTML代码.png看到眼花缭乱的HTML代码不用着急，谷歌浏览器的审查元素有一个好用的小功能，可以帮我们定位页面控件对应的HTML代码位置：

定位HTML代码.png

如上图所示，点击上方矩形框中的小箭头，点击页面对应的位置，在右边的HTML代码中就会自动定位并高亮。接下来我们定位到下载按钮对应的HTML代码：

下载按钮对应HTML.png

首先使用python拿到整个页面的HTML，很简单，使用“requests.get(url)”，url填入相应网址即可。

requestHTML.png接着，在抓取页面关键信息的时候，采取“先抓大、再抓小”的思路。可以看到一个页面有10个APP，在HTML代码中对应10个item：

list_item.png

而每个 li 标签中，又包含各自APP的各个属性(名称、下载链接等)。所以第一步，我们将这10个 li 标签提取出来：def geteveryapp(self,source):

everyapp = re.findall('(

)',source,re.S) #everyapp2 = re.findall('( .*? )',everyapp,re.S)

return everyapp```

这里用到了简单的正则表达式知识，这里提供一个链接：[正则表达式入门](http://www.oschina/question/12_9507)

* 提取 li 标签中的下载链接：

```codedef getinfo(self,eachclass):

info = {}

str1 = str(re.search('', eachclass).group(0))

app_url = re.search('"(.*?)"', str1).group(1)

appdown_url = app_url.replace('appinfo', 'appdown')

info['app_url'] = appdown_url

print appdown_url return info接下来需要说的难点是翻页，点击下方的翻页按钮后我们可以看到地址栏发生了如下变化：

原始URL.png

带ID的URL.png

豁然开朗，我们可以在每次的请求中替换URL中对应的id值实现翻页。def changepage(self,url,total_page):

now_page = int(re.search('pi=(\d)', url).group(1))

page_group = [] for i in range(now_page,total_page+1):

link = re.sub('pi=\d','pi=%s'%i,url,re.S)

page_group.append(link) return page_group

爬虫效果关键位置说完了，我们先看下最后爬虫的效果：

爬取结果.png

在TXT文件中保存结果如下：

最终结果.png

直接复制进迅雷就可以批量高速下载了。

附上全部代码#-*_coding:utf8-*-import requestsimport reimport sys

reload(sys)

sys.setdefaultencoding("utf-8")class spider(object):

def __init__(self):

print u'开始爬取内容'

def getsource(self,url):

html = requests.get(url) return html.text def changepage(self,url,total_page):

now_page = int(re.search('pi=(\d)', url).group(1))

page_group = [] for i in range(now_page,total_page+1):

link = re.sub('pi=\d','pi=%s'%i,url,re.S)

page_group.append(link) return page_group def geteveryapp(self,source):

everyapp = re.findall('(

)',source,re.S) return everyapp def getinfo(self,eachclass):

info = {}

str1 = str(re.search('', eachclass).group(0))

app_url = re.search('"(.*?)"', str1).group(1)

appdown_url = app_url.replace('appinfo', 'appdown')

info['app_url'] = appdown_url print appdown_url return info def saveinfo(self,classinfo):

f = open('info.txt','a')

str2 = "http://apk.hiapk"

for each in classinfo:

f.write(str2)

f.writelines(each['app_url'] + '\n')

f.close()if __name__ == '__main__':

appinfo = []

url = 'http://apk.hiapk/apps/MediaAndVideo?sort=5&pi=1'

appurl = spider()

all_links = appurl.changepage(url, 5) for link in all_links: print u'正在处理页面' + link

html = appurl.getsource(link)

every_app = appurl.geteveryapp(html) for each in every_app:

info = appurl.getinfo(each)

appinfo.append(info)

appurl.saveinfo(appinfo)

总结

选取的目标网页相对结构清晰简单，这是一个比较基本的爬虫。代码写的比较乱，见谅。

作者：CaptainXero

链接：https://www.jianshu/p/580e7e70a955

本文标签：爬虫下载链接 Python app

版权声明：本文标题：python爬虫app下载_Python爬虫之抓取APP下载链接内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1727550822a1120543.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

python爬虫app下载_Python爬虫之抓取APP下载链接

更多相关文章

python应用程序无法正常启动0xc00007b_详细教您解决应用程序无法正常启动(0xc000007b)...

【Python】

廖雪峰Python 2.X 教程

Python 二次开发 AutoCAD 简介

为啥Python运行速度这么慢 ？_python cad 速度慢

测量员软件测试版,测量员app

APP推广工具（总结）

python + uiautomator2编译平板语言工具并切换打包exe可执行文件

python读mongodb很慢_Python3.5+Mongodb+Flask Web实战坑点小结【Dog Plus】

Git 学习笔记——莫烦PYTHON

uni-app打开其他APP应用

苹果iOS系统下检查第三方APP是否安装

CUDA8.0和cudnn6.0的详细安装方法+下载链接

微信：禁用小程序跳转 App

[IOS APP]金庸全集 有声小说下载

本人自己Python安装和配置无套路分享

如何快速下载xcode等官方app

Python学习工具第五期 — 免费使用，无须激活下载安装Pycharm教程

原来通过修改dns加快app store下载速度的确有效

常用第三方APP 的url scheme

发表评论

推荐文章

如何判断你当前手机浏览器的类型 userAgent (QQ , 微信 ，微博 ，华为)

chrome-实用技巧

newagg新蛋笔试题（整理）

从小米应用商店批量下载应用

虚拟机的安装和使用

热门文章

计算机清除服务命令,计算机Dos批处理命令，一键清理Windows系统垃圾的bat代码...

用mac的chrome浏览器调试 Android 手机的网页

win10系统安装jdk8简易教程

云计算机账号能锁定一个电脑吗,使用云电脑时我们的账号是否安全？会不会被盗号？...

只需一款软件就能让电视秒变成电脑

重装金蝶，由于卸载不干净所带来的问题。KISebsglStockPlace.dll中发生以下错误 文件已经存时，无法创建文件。

苹果输入法怎么换行_最全的输入法皮肤，你想要的百度输入法都有

java生产环境故障排查_生产环境下JAVA进程高CPU占用故障排查---temp

MAC M1 utm安装win11

ibm3650操作系统windows2012安装步骤

最新文章

如何离线更新安装chrome浏览器

Chrome 浏览器下载速度慢？一个开关就可解决

华硕 ROG 幻142023GA402X原装Windows11预装系统工厂模式恢安装带 ASUSRecevory 一键还原

电脑自带的服务器修复,还原或修复运行 Windows Server Essentials 的服务器

计算机如何恢复原来用户,如何使用 Windows.old 文件夹将基于 Windows 7 的计算机还原到以前安装的 Windows...

如何清除chrome浏览器缓存

如何下载与Chrome浏览器的版本相匹配的ChromeDriver

&quot;Chrome浏览器下载Word、Excel、PPT，打开提示错误&quot;问题

贝壳一键还原1.0 使用详解

华硕ROG枪神6plus原装Windows11预装系统 工厂模式恢复安装带ASUSRecevory一键还原安装还原方法

ubuntu下载各个版本chrome方法

2022 chrome离线下载包

老毛桃一键还原

Windows Server 2008 R2 备份与恢复详细实例

Windows 11 快捷键速查表

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

为啥Python运行速度这么慢？_python cad 速度慢

[IOS APP]金庸全集有声小说下载

如何判断你当前手机浏览器的类型 userAgent (QQ , 微信，微博，华为)

重装金蝶，由于卸载不干净所带来的问题。KISebsglStockPlace.dll中发生以下错误文件已经存时，无法创建文件。

"Chrome浏览器下载Word、Excel、PPT，打开提示错误"问题

华硕ROG枪神6plus原装Windows11预装系统工厂模式恢复安装带ASUSRecevory一键还原安装还原方法

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载