爬取手机APP数据|电子爱好者

admin管理员组
文章数量:1558098

爬取APP数据流程：
1、使用抓包工具；
2、手机使用代理；
3、获取并分析接口；
4、反编译apk获取key；
5、突破反爬限制。

工具：
1、夜神模拟器
2、Fiddler

实现过程：
1、下载夜神模拟器模拟手机，也可用真机；
2、下载Fiddler抓包工具，抓取手机APP数据包；
3、分析接口；
4、使用Python实现爬虫程序。

Fiddler安装配置过程：
1、下载并安装Fiddler；
2、设置Fiddler (配置完后记得重启Fiddler)：
打开Fiddler，点击Tools（工具）->选中 Fiddler Options（选项…）->选中”Decrpt HTTPS traffic（解密HTTPS通信）”, Fiddler就可以截获HTTPS请求->选中“Ignore server certificate errors（忽略服务器证书错误），会导致浏览器显示不安全。”（如无此项，则点击Actions动作->Reset All Certificates重置所有证书）->选中”Allow remote computers to connect（允许远程计算机连接）”，是允许别的机器把HTTP/HTTPS请求发送到Fiddler上来。

记住端口号是:8888

夜神模拟器安装配置过程：
1、下载安装夜神模拟器；
2、配置代理：
打开cmd，输入ipconfig查看本机IP（每次启动电脑都不一样）：

进入夜神模拟器 –>打开设置 –>打开WLAN：

点击修改网络，点击显示高级选项前的框：

显示代理及IP设置（如未显示，可重启程序），代理模式选手动：

配置完后保存即可（每次重启电脑都需重新设置代理服务器主机名，因为重启后本机IPv4地址都会改变），到这里就设置好所有的配置了。
3、安装Fiddle证书（如需安装证书则操作此步）
在模拟器中的浏览器输入 http://ipv4.fiddler:8888，下载安装证书

4、在夜神模拟器中安装待爬取的APP，使用Fiddler抓包分析api，最后用python爬取。

爬取老子搜书APP完整代码：

#!/usr/bin/env python
# -*-coding=utf-8-*-

"""
爬取老子搜书，老子搜书用的是追书神器
"""

import requests
import json
import urllib.parse 						#url编码、解码
import re

# 搜书及书目的消息头
headers = {
	'Host':'api.zhuishushenqi',
	'Connection':'Keep-Alive',
	'Accept-Encoding':'gzip',
	'User-Agent':'okhttp/3.6.0'
}
# 查看内容详情的消息头
headers2 = {
	'Host':'chapter2.zhuishushenqi',
	'Connection':'Keep-Alive',
	'Accept-Encoding':'gzip',
	'User-Agent':'okhttp/3.6.0'
}

# 搜书并返回书的id列表
def search(name):
	url = 'http://api.zhuishushenqi/book/fuzzy-search?query={0}'.format(name)
	html = requests.get(url, headers=headers)
	content = html.content.decode('utf-8')
	con = json.loads(content)['books']		#字符串转换成json，并获取books键的值
	book_list = []							#搜索结果id列表
	a = 0 									#初始化书号
	for i in con:
		a += 1
		aid = i['_id']
		title = i['title']
		author = i['author']
		body = str(a) + '、 ' + title + ' ' + author
		book_list.append(aid)
		print(body)							#打印显示书号、书名、作者
	return book_list

# 查看目录并返回章节标题及链接字典列表
def chapters(aid):
	url = 'http://api.zhuishushenqi/mix-atoc/{0}?view=chapter'.format(aid)
	html = requests.get(url, headers=headers)
	content = html.content.decode('utf-8')
	con = json.loads(content)['mixToc']['chapters']
	chapter_list = []
	a = 0
	for i in con:
		a += 1
		title = i['title']
		link = i['link']
		body = str(a) + '、 ' + title
		chapter_list.append({title:link})	#将章节标题及链接组成字典并添加到列表
		print(body)							#打印显示章节号、标题
	return chapter_list

# 查看内容
def look(title, url):
	new_url = 'http://chapter2.zhuishushenqi/chapter/' + urllib.parse.quote(url)	#需要url编码，否则路径错误
	html = requests.get(new_url, headers=headers2)
	content = html.content.decode('utf-8')
	con = json.loads(content)['chapter']['body']
	print('\n' + title + '\n')
	print(con)

if __name__ == '__main__':
	while True: 							#确保书名输入正确
		name = input('请输入书名：').strip()
		reg = r'[\u4e00-\u9fa5A-Za-z]+.*'	#以汉字或字母开头的正则
		name_reg = repile(reg)
		res = name_reg.match(name)			#从字符串起始位置匹配
		if res:
			book_id = search(name)			#获取搜书结果id列表
			length = len(book_id)			#获取搜书结果数量
			break
		else:
			print('输入错误！书名必须以汉字或字母开头！')
	while True: 							#确保书号输入正确
		book = input('请选择书号：').strip()
		if book.isdigit():
			if int(book) > 0 and int(book) <= length:
				aid = book_id[int(book)-1]	#获取选择的书id
				chapter_id = chapters(aid)	#获取标题、链接字典列表
				length2 = len(chapter_id)	#获取章节数
				break
			else:
				print('输入错误！没有该书号！')
		else:
			print('输入错误！请输入数字！')
	while True: 							#确保章节号输入正确
		chapter = input('请选择章节号：').strip()
		if chapter.isdigit():
			chapter2 = int(chapter)
			if chapter2 > 0 and chapter2 <= length2:
				while True:							#翻页
					chap = chapter_id[chapter2-1] 	#获取当前选择章节的标题、链接字典
					title = list(chap)[0] 			#获取章节标题
					url = list(chap.values())[0]	#获取章节链接
					look(title, url)				#查看章节内容
					while True: 					#按键操作
						next = input('\n\n\n输入x键进入下一章，q键退出：').strip()
						if next == 'x':
							chapter2 += 1 			#下一页章节号
							break
						elif next == 'q':			#退出按键操作
							break
						else:
							print('输入错误！请重新输入。')
					if next == 'q':					#退出翻页
						break
			else:
				print('输入错误！没有该章节号！')
		else:
			print('输入错误！请输入数字！')
		if next == 'q':						#退出章节，结束程序
			print('已退出程序！')
			break

总结：
app里的数据比web端更容易抓取，反爬虫也没那么强，大部分也都是http/https协议，返回的数据类型大多数为json。

本文标签：数据手机 app

版权声明：本文标题：爬取手机APP数据内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1727304930a1107400.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

爬取手机APP数据

更多相关文章

三星s8清除html查看器,三星S8手机怎么双清 清理手机数据方法介绍 - Iefans

vue的axios在ie和苹果浏览器后端参数数据接收不到的问题

苹果手机vlc文件服务器,ios vlc ftp服务器

JS监听浏览器回退操作，包括手机浏览器

抖音主页位置怎么自己创建服务器手机版,抖音位置怎么自己创建_添加位置方式大全...

手机html文件打开是乱码怎么解决,打开HTMLDOCUMENT文件出现乱码别 – 手机爱问

php 手机端播放器,用JS代码适配电脑端和手机端播放器代码

手机打开网页显示500服务器错误怎么办,访问网站时出现500错误该如何解决

手机打开电脑html没有图片,jpg图片手机能看电脑打不开怎么办

js判断是否是手机访问网页

手机浏览器 css3,css3在不同型号手机浏览器上的兼容一览表

手机CMWAP上网设置（完全版）

全网最全fiddler使用教程和fiddler如何抓包（fiddler手机抓包）-笔者亲测

JS判断手机端访问页面并跳转到指定页面

手机通过数据线与电脑USB连接之手机详细设置

手机充满电不拔有什么影响吗？

手机连接不上IIS网站（站点）

win10 笔记本 突然连不上手机热点了

智学网登录不了java_智学网登录不上怎么办？智学网app无法登录解决方法介绍...

android h5 qq登录,Android webview一键登录手机QQ(2018.11)

发表评论

推荐文章

linux mount iso文件系统,在Linux中挂载ISO文件的两种方法(mount命令与mount软件)

FTP服务器搭建详细步骤

ftp 服务器文件夹创建命令,ftp 服务器文件夹创建命令

关于最新版go-cqhttp无法登录qq

服务器显示屏出现白屏,远程服务器桌面 显示白屏

热门文章

迅雷使用手册

【博应用官网】如何使用迅雷设置下载完后自动关机？

Python学习——【6.1】文件操作

如何删除U盘里的System Volume Information文件夹#U盘中毒啦！

SQL Server Management Studio (SSMS)多版本下载详解

vivo适配android10,更快更安全，vivo产品经理宣布：iQOO将首批适配Android 10正式版...

最简单vivo机器怎么不root激活XPOSED框架

如果别人连不上你的Oracle数据库怎么办？不妨进行Oracle的网络配置！

电脑IPv4和物理地址（MAC）随机变化的解决方式（固定MAC地址）

微信扫码自动群发消息给所有人技术分析 之通过https请求获取微信网页版登录二维码图

最新文章

小白如何重装系统win7 小白如何重装系统win7教程

探索经典：Windows 7 64位系统镜像项目推荐

Windows11 2024九月更新正式版官方ISO纯净版镜像下载

服务器和桌面操作系统有什么区别,服务器和桌面操作系统的区别

2019 Electron+Vue+Ant Design Vue仿网易云音乐windows客户端实战分享

重装系统必看｜安装系统前的分区表类型GPT和MBR详解

笔记本怎么一键重装系统win7,笔记本一键重装系统win7系统教程

Windows 98 光盘引导文件

Windows11镜像下载

Windows11电脑桌面便签纸怎么设置Win11桌面便签提醒待办事项？

重装系统win7需要多久,重装系统win7需要多久才能开机

Windows镜像包大全（附百度云下载链接）

【8.28更新】Win11 23H2 正式版：22631.4112镜像下载！

Win7 64位企业版ISO镜像：重温经典，稳定高效的选择

Ubuntu 16.04 + xrdp + Xfce 实现 Windows 远程桌面连接 Linux 配置及使用中出现的问题

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

三星s8清除html查看器,三星S8手机怎么双清清理手机数据方法介绍 - Iefans

win10　笔记本　突然连不上手机热点了

服务器显示屏出现白屏,远程服务器桌面显示白屏

微信扫码自动群发消息给所有人技术分析之通过https请求获取微信网页版登录二维码图

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载