QQ空间(日志、说说、个人信息)python爬虫源码(一天可抓取400万条数据|电子爱好者

admin管理员组
文章数量:1530518

2023年12月13日发(作者：)

QQ空间（日志、说说、个人信息）python爬虫源码（一天可抓取400万条数

据）

本文代码github地址：

回复 datadw 公众号关键词“QQ”获取。

爬虫功能：

QQSpider 使用广度优先策略爬取QQ空间中的个人信息、日志、说说、好友四个方面的信息。

判重使用“内存位”判重，理论上亿数量级的QQ可瞬间判重，内存只占用400M+。

爬虫速度可达到单机每天400万条数据以上（具体要考虑网速、网络带宽、稳定性等原因。我在学校是400万+，但在公

司那边却只有六成的速度，普通家庭网络可能会更慢）。

环境、架构：

开发语言：Python2.7

开发环境：64位Windows8系统，4G内存，i7-3612QM处理器。

数据库：MongoDB 3.2.0

（Python编辑器：Pycharm 5.0.4；MongoDB管理工具：MongoBooster 1.1.1）

主要使用 requests 模块抓取，部分使用 BeautifulSoup 解析。

多线程使用。

抓取 Cookie 使用 selenium 和 PhantomJS 。

判重使用 BitVector 。

使用说明：

启动前配置：

需要安装的软件：python、Redis、MongoDB（Redis和MongoDB都是NoSQL，服务启动后能连接上就行，不需要

建表什么的）。

需要安装的Python模块：requests、BeautifulSoup、multiprocessing、selenium、itertools、redis、pymongo。

启动程序：

进入写入QQ账号和密码（不同QQ换行输入，账号密码空格隔开）。如果你只是测试一下，则放三两个

QQ足矣；但如果你开多线程大规模抓取的话就要用多一点QQ号（thread_num_QQ的2~10倍），账号少容易被检测

为异常行为。为异常行为。

进入 init_ 进行爬虫参数的配置，例如线程数量的多少、设置爬哪个时间段的日志，哪个时间段的说

说，爬多少个说说备份一次等等。

运行启动爬虫。

4.爬虫开始之后首先根据里面的QQ去获取 Cookie（以后登录的时候直接用已有的Cookie，就不需要每次都

去拿Cookie了，遇到Cookie失效也会自动作相应的处理）。获取完Cookie后爬虫程序会去申请四百多兆的内存，申请

的时候会占用两G左右的内存，大约五秒能完成申请，之后会掉回四百多M。

5.爬虫程序可以中途停止，下次可打开继续抓取。

运行截图：

代码说明：

mongodb用来存放数据，redis用来存放待爬QQ和Cookie。

爬虫之前使用的是BitVector去重，有一部分人反映经常会报错，所以现在使用基于Redis的位去重，内存占用不超过

512M，能容纳45亿个QQ号瞬间去重，而且方便分布式扩展。

爬虫使用phantomJS模拟登陆QQ空间，有时候会出现验证码。我使用的是云打码（自行百度），准确率还是非常高

的，QQ验证码是4位纯英文，5元可以识别1000个验证码。如果需要请自行去注册购买，将账号、密码、appkey填

入，再将 public_ 里的dama=False改成dama=True即可。

分布式。现在已经将种子队列和去重队列都放在了Redis上面，如果需要几台机器同时爬，只需要将代码复制一份到

另外一台机子，将连Redis时的localhost改成同一台机器的IP即可。如果想要将爬下来的数据保存到同一台机，也只

需要将连MongoDB时的localhost改成该机器的IP即可。5.

为了让程序不那么复杂难懂，此项目只用了多线程，即只用到了一个CPU。如果实际生产运行的话可以考虑将程序

稍作修改，换成多进程+协程，或者异步。速度会快很多。

说说数据：

日志数据：

好友关系数据：

个人信息数据：

数据库说明：

QQSpider主要爬取QQ用户的说说、日志、朋友关系、个人信息。

数据库分别设置 Mood、Blog、Friend、Information 四张表。

Mood 表：

_id：采用 “QQ_说说id” 的形式作为说说的唯一标识。

Co-oridinates：发说说时的定位坐标，调用地图API可直接查看具体方位，可识别到在哪一栋楼。

Comment：说说的评论数。

Like：说说的点赞数。

Mood_cont：说说内容。

PubTime：说说发表时间。

QQ：发此说说的QQ号。

Source：说说的根源（对于转发的说说），采用 “QQ_说说id” 的形式标识。

Tools：发说说的工具（手机类型或者平台）。

Transfer：说说的转发数。

URL：说说的链接地址。

isTransfered：此说说是否属于转发来的。

Blog 表：

_id：采用 “QQ_日志id” 的形式作为日志的唯一标识。

Blog_cont：日志内容。

Comment：日志的评论数。

Like：日志的点赞数。

PubTime：日志的发表时间。

QQ：发此日志的QQ号。

Share：日志的分享数。

Source：日志的根源（对于转发的日志），采用 “QQ_日志id” 的形式标识。

Title：日志的标题。

Transfer：日志的转发数。

URL：日志的链接地址。

isTransfered：此日志是否属于转发来的。

Friend 表：

_id：采用 QQ 作为唯一标识。

Num：此QQ的好友数（仅统计已抓取到的）。

Fx：朋友的QQ号，x代表第几位好友，x从1开始逐渐迭加。

Information 表：

_id：采用 QQ 作为唯一标识。

Age：年龄。

Birthday：出生日期。

Blog：已发表的日志数。

Blogs_WeGet：我们已抓取的日志数。

Blood_type：血型。

Career：职业。

Company：公司。

Company_address：公司详细地址。

Company_city：公司所在城市。

Company_country：公司所在国家。

Company_province：公司所在省份。

Constellation：星座。

CurrentTime：抓取当前信息的时间（不同时间信息会不同）。

FriendsNum：好友数（仅统计已抓取的）。

Gender：性别。

Hometown_city：故乡所在城市。

Hometown_country：故乡所在国家。

Hometown_province：故乡所在省份。

Living_city：居住的城市。

Living_country：居住的国家。

Living_province：居住的省份。

Marriage：婚姻状况。

Message：空间留言数。

Mood：已发表的说说数。

Mood_WeGet：我们已抓取的说说数。

PageView：空间总访问量。

Picture：已发表的照片数（包括相册里的照片和说说里的照片）。

结语：

•

爬虫是偏后台型的任务，以抓取效率为主，并没有很好的用户界面，并且需要不断地维护。所以对于完全没有编程

基础的人来说，可能会遇到各种各样的问题。此项目最初的目的是为大家提供QQ空间爬虫的一种架构，并不保证程

序一直能跑。只要腾讯服务器端稍有变动，例如某一个链接变了，可能程序就抓不到数据了，此时程序也要相应地

将链接换成新的，如果网页结构变了，解析规则也要相应地修改。

本文标签：日志爬虫使用抓取

版权声明：本文标题：QQ空间(日志、说说、个人信息)python爬虫源码(一天可抓取400万条数据内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1702438698a7079.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

3小时前

使用管理员加打windows10中的Windows PowerShell，使用以下命令开始ping单纯查看 ping.exe -t 8.210.0.141 |Foreach{"{0} - {1}&qu

电子爱好者 - 最新技术资讯及电子产品介绍！

QQ空间(日志、说说、个人信息)python爬虫源码(一天可抓取400万条数据

更多相关文章

Python3爬虫实战——QQ空间自动点赞程序（上）

qq好友列表获取之动态爬虫清洗爬取好友列表数据 - 获取qq好友、群、群成员列表

SQL server的错误日志导致服务器C盘满

爬虫面试题(一)

10 分钟上手Web Scraper，从此爬虫不求人

210303课 解决爬虫时IP封禁问题

爬虫下载腾讯视频免费视频

python爬虫之下载电影(不是爱奇艺腾讯视频等平台哈)

用python写爬虫爬取腾讯视频的评论

用python实现的抓取腾讯视频所有电影的爬虫

【杂谈】GitHub上有哪些好用的爬虫(从Google百度，腾讯视频抖音，豆瓣知乎到不可描述)

Python 一.开发环境搭建(分布式爬虫打造搜索引擎)

java获取Win系统日志最后(最新)开关机时间记录等

python爬虫之网易云歌曲下载(需要js分析) -- 2020.06.20更新

华为云.云日志服务LTS及其基本使用

Linux系统之GoAccess实时Web日志分析工具的基本使用

cornerStone查看日志出错:Could not contact repository to read the latest log entries

服务器蓝屏 查看系统日志文件,Windows10系统查看蓝屏日志的方法

「Python爬虫系列讲解」十一、基于登录分析的 Selenium 微博爬虫

windows10系统ping包显示时间，记录日志（亲测可用）

发表评论

推荐文章

如何在《新华日报》理论版上发表文章？

【更改google chrome浏览器路径的方法】

怎么给笔记本重装系统图文教程

AMD（锐龙）处理器解决安装 AndroidStudio 虚拟机失败问题

Windows docker 下no matching manifest for windowsamd64 10.0.19044 in the manifest list entries解决方法

热门文章

Intellij IDEA快捷键大全（超详细）

Competition Street view picture character recognition 5: ensemble model

结合ChatGPT制作PPT

承诺会计预留款会计(commitment accountingEncumbrance Accounting) in AX 2012

机器人（自动化）等专业课程创新的结果

打开U盘，出现使用驱动器X:中的光盘之前需要将其格式化 数据恢复方法

超详细 Centos7下Prometheus Alertmanager配置钉钉告警与邮箱告警（已亲手验证）

ai芯片fpga_AI芯片技术趋势景观GPU TPU FPGA初创公司

amd cpu 安卓模拟器_Android模拟器稳定版终于支持AMD处理器，开发者喜极而泣

在LinuxMint19上安装搜狗拼音输入法

最新文章

win11浏览器默认主页如何设置

Win11 Excel文件变成白板图标怎么解决？

减少win11核显占用的内存怎么操作

win2012 r2 php mysql,在Windows Server2012 R2上安装WordPress PHP和MYSQL

Win11录屏数据保存在哪里？Win11录屏数据保存的位置

原版win7系统怎么安装,原版Win7系统的安装步骤

Win11显示麦克风未插上怎么办？Win11显示麦克风未插上的解决方法

Win11更改声音输出设备有什么方法？

Win11鼠标动不了如何恢复？Win11鼠标动不了恢复的方法

Win11磁盘清理在哪打开？

Windows7BT种子大全

Win11隐藏输入法状态栏方法

Win10一键修复所有dll缺失的方法

Win11怎么把桌面文件路径改到D盘

Win11图标变暗怎么办？Win11图标变暗的解决方法

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

210303课解决爬虫时IP封禁问题

服务器蓝屏查看系统日志文件,Windows10系统查看蓝屏日志的方法

打开U盘，出现使用驱动器X:中的光盘之前需要将其格式化数据恢复方法

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载