爬虫（三）生成qq好友关系网(2)—获取好友空间评论点赞情况|电子爱好者

admin管理员组
文章数量:1608626

二. 获取好友空间评论点赞情况

到了最麻烦的一步了

github地址：嘤嘤嘤我就是那个地址，点我点我

上一篇看这里：看我看我看我

首先我们得想好我们要啥数据，我们要得到好友之间的关系值，那双方点赞和评论的次数越多，那么双方的关系值就应该越高，所以我们完成这个小项目就只要得到评论和点赞的次数

然后我们得想好数据如何存储，是写进数据库呢，还是按照一定的格式存储为txt文件保存在本地，本文采取的是后者

那么问题又来了，按照一定的格式存储，那么按照怎样的格式会让后面处理数据起来比较方便呢

那么问题又双叒叕来了，我们后面想要怎么处理数据

这些必须事先想好，不然做着做到后面发现不对啊，又要改改改

重点来了！！！！！！！

思路如下:

comment.txt 和 like.txt 分别存储评论和点赞的情况，只要好友之间在qq空间有评论或者点赞，那么在对应文件中加一行，把两个人的备注写进去，中间有个特殊符号分开，如$|$，这里别给自己挖个大坑！！！以便于后面处理，后期处理数据则读这两个文件，评论了两人的关系+3，点赞关系+1，数据处理放在第三篇说。

好了，现在有了思路那么撸起袖子开始干吧

1.1首先得得到一个好友的每一条说说，再得到这个好友的说说的评论点赞情况，再用好友列表循环这个过程即可

先进入一个好友空间，进入说说页面，在开发者工具里看发送的http请求和他的响应，找到这个

看他需要的数据

看他返回的响应内容

观察下发现有这么个特点：

返回的是20条说说在msglist里面，每条说说还带着10条评论，这样解析json数据把我们想要的内容取出来即可，假设A评论了B的QQ，B是我们的好友，那么我们看A是不是我和B的共同好友，如果是的话那就把A和B的信息写入comment.txt，即判断A的qq号是否在第一步得到的qq_list就行了

那么思路就来了！！！！！！！！！

要得到一个好友的所有说说那么就，不断改变pos的值，循环发送http请求

因为还返回了十条评论，那么我们就顺带把这十条评论记下来

    #找到说说模块
    #pos是当前页面第一个说说的排序，一页20个
    #这里的qq是单个好友的qq,这里的单个name是好友的备注
    def find_topic(self, qq, name):
        page = 1
        pos = 0
        g_tk = self.get_gtk()
        uin = self.get_uin()
        while True:
            #url必须在循环内，每次循环必须重置
            url = 'https://user.qzone.qq/proxy/domain/taotao.qq/cgi-bin/emotion_cgi_msglist_v6?'
            data = {
                'uin': qq,
                'pos': pos,
                'num': 20,
                'hostUin': uin,
                'replynum': 100,
                'callback': '_preloadCallback',
                'code_version': 1,
                'format': 'jsonp',
                'need_private_comment': 1,
                'g_tk': g_tk,
            }
            #下次翻页
            #下次翻页
            pos += 20
            #构造访问说说页面的HTTP报文内容
            url += urllib.parse.urlencode(data)
            res = requests.get(url,headers=header,cookies=cookie)
            print('读取 '+name+' 的第 '+str(page)+' 页说说成功')
            page += 1
            #匹配出_preloadCallback之后的内容
            #如果啥都没有那么就是没有权限，file_denied在这个函数外面打开
            if len(re.findall('\((.*)\)', res.text)) == 0:
                #记录下没有权限的死鬼
                file_denied.write(name + ': ' + str(qq) + '\n')
                continue
            r = re.findall('\((.*)\)', res.text)[0]
            #将json数据变成字典格式
            msg = json.loads(r)

            #如果没有说说就返回
            if 'msglist' not in msg:
                return 0

            #这里爬说说结束，注意和上面的区别，一个是不存在键值，一个是存在键，但值类型为None
            if msg['msglist'] == None:
                print('\n'+name+'的空间无更多说说'+'\n')
                return 0

            #得到的说说相关内容都在msglist(list类型)里面，msglist[i]是字典类型，可利用keys方法查看结构
            #说说内容conlist[0]['con'],另外转发的说说在conlist[1/2/3....]
            #每一条说说就是m
            for m in msg['msglist']:

                #记录共同好友点赞记录
                self.write_like(m, qq, name)

                #如果评论数大于10，则需要点进查看全部评论
                if m['cmtnum'] < 10:
                    ##这里特殊，如果转发了说说并且没有配文字，而且原说说被删了，就会出现错误
                    if m['conlist'] is None:
                        continue
                    #写入评论信息
                    self.write_comment(m,qq, name)

那么又有了新的问题：因为这样子只能得到十条评论，想要更多评论那得更进一步

即点击这个

，在开发者中心查看http请求和响应，一样的套路解析，只不过发送的数据不一样了，在后面跟上一个else语句

# 如果评论数大于10，则需要点进查看全部评论
                else:
                    data_more = {
                        'uin': qq,
                        'tid': m['tid'],
                        'ftype': 0,
                        'sort': 0,
                        'pos': 0,
                        'num': 20,
                        't1_source': 'undefined',
                        'callback': '_preloadCallback',
                        'code_version': 1,
                        'format': 'jsonp',
                        'need_private_comment': 1,
                        'g_tk': g_tk,
                    }
                    url_more = 'https://user.qzone.qq/proxy/domain/taotao.qq/cgi-bin/emotion_cgi_msgdetail_v6?'
                    url_more += urllib.parse.urlencode(data_more)
                    res_more = requests.get(url_more, headers=header, cookies=cookie)
                    # print(url_more)
                    # 匹配出_preloadCallback之后的内容
                    r_more = re.findall('\((.*)\)', res_more.text)[0]
                    # print(res_more.text)
                    m_more = json.loads(r_more)
                    # 写入txt文件
                    self.write_comment(m_more, qq, name)

1.2 那么再定义号写入txt的两个函数，

得到说说的点赞情况需要点击，和上面一样的套路，这里就不再赘述了

这里又因为评论有了新的问题，我们上一部只得到了20条评论，评论如果多于20条呢，那我们再评论的的写入函数里再进行判断，如果大于20条，那么再请求后面的，但比较麻烦的是这里发送的数据，响应的json数据格式和前20条的又不一样，所以不能直接套用前面的，如果评论大于20条需要在写入函数内重新发送请求，在git上去的源码里查看，这里就不展开了

写入时遍历说说下的每一条评论记得先查看该评论是否是自己的好友发的：

for comment in data['comments']: 
   #判断共同好友,是的话则写入
    if comment['uin'] in qq_list:
        file_comment.write(name+'$|$'+comment['name']+'\n')

对于点赞也是

for like in r['data']['like_uin_info']:
    #判断共同好友
    if like['fuin'] in qq_list:
        file_like.write(name + '$|$' + like['nick'] + '\n')

只要评论或者点赞就把两个人的备注都写进去

然后再用第一部得到的friend_list循环这个即可

    #定义入口
    def start(self):
        friend_list = self.get_friend()
        #开启多线程爬数据
        pool_size = 15
        pool = threadpool.ThreadPool(pool_size)
        # 创建工作请求，这里他自己会把list分开
        reqs = threadpool.makeRequests(self.get_data,friend_list)
        # 将工作请求放入队列
        [pool.putRequest(req) for req in reqs]
        pool.wait()

    def get_data(self, friend_list):
        self.find_topic(friend_list[1], friend_list[0])

现在已经得到数据了，就像下面

然后就是到了最最有意思的第三部分数据处理部分了

本文标签：好友爬虫关系网情况空间

版权声明：本文标题：爬虫（三）生成qq好友关系网(2)—获取好友空间评论点赞情况内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1728552148a1163479.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

U盘下载系统之后剩余空间只剩32G？

5天前

学习计算机的应该都会装系统，接下来说一下自己下载Win10系统的过程首先给大家一个地址，这里边会有U盘装系统的方法和工具，本人下载的是下边这个工具，。

在Win7下删除Ubuntu系统分区后未分配空间如何恢复到原来的磁盘？

5天前

简单介绍一下，Win7系统，之前安了个Ubuntu14.04双系统，想要重新安一下，就在win7—>磁盘管理下将Ubuntu分区删了&#x

网络空间安全---计算机网络安全概述

5天前

网络空间安全---计算机网络安全概述 1、计算机常见的风险1.利用漏洞溢出攻击SQL注入 2.暴力破解3.木马植入4.病毒恶意程序5.系统扫描6.DoSSYN FloodPing FloodDDoS 7.网络钓鱼8.MITMARP欺骗 2

U盘空间丢失的简单解决方法

4天前

自己的4GU盘常用来做win7的ReadyBoost,有时候拔的急,导致一些空间丢失.就是看着是空的U盘,但是在属性里看却被使用了很多. 这就是一些系统临时文件没有被正常清除,但是因为丢失了索引,所以也在系统里也看不到. 解决很简单,插

雪球网股票用户评论爬虫

4天前

目录一、什么是爬虫？二、HTML三、爬虫基本原理四、爬虫三大库1.Request库2. BeautifulSoup库五、正则表达式1. 正则表达式常用符号2.re模块及其方法一、什么是爬虫？

--force --grace-period=0强制删除名称空间无效解决办法

3天前

一、背景有时候使用强制删除名称空间命令 kubectl delete ns ${名称空间名字} --grace-period0 时候仍然无法成功删除那要怎样才能彻底删除名称空间呢二、操作步骤 1、如果该名称空间下还有资源&

谷歌网站收录查询，教你怎么查询Google网站的收录情况

3天前

进行谷歌收录批量查询，可以采用以下几种方法： 一、使用Google Search Console 虽然Google Search Console（谷歌搜索控制台&#

清华同方计算机配置情况,清华同方计算机还原卡安装使用说明

3天前

清华同方计算机还原卡安装使用说明远程教育培训资料之——清华同方系统还原卡的操作同方系统还原卡能大批量地完成整个电脑机房系统的安装或更新。先将一台已安装好同方系统还原卡、操作系统及应用软件的电脑设为发送端，其余所有的

JS如何检测手机上APP是否安装的情况

3天前

我们在浏览网页的时候，你会看到一个网页下面漂浮着一个提示框“打开APP”或者“下载APP的字样”，如果你的手机已经安装过这个APP，那么网页会提示“打开APP”&#x

计算机组装与维护学生情况分析,《计算机组装与维护》之机箱和电源的说课稿...

2天前

《计算机组装与维护》之机箱和电源的说课稿尊敬的各位评委、领导、各位老师： 大家下午好！ 我说课的内容是《“计算机组装与维护”之机箱和电源》。一、教材分析与处理本课是《计算机组装与维护教程》第

DLL修复工具问题排查：如何有效解决使用DLL修复工具后电脑蓝屏的情况

2天前

一、引言 DLL 修复工具旨在解决动态链接库文件相关的问题，以提高电脑系统的稳定性和软件的正常运行。然而，在使用某些 DLL 修复工具后，可能会出现电脑蓝屏的情况&#

关于使用EB tresos出现无法激活的情况解决

1天前

EB安装完成时需要激活才能使用的，不然都无法建立工程。我在安装eb studio时就是在激活方面有问题导致无法使用，下面讲解出现了什么问题以及我如何去解除的。 1.出现的错误提示&#xf

Java 爬虫-谷歌商店(Google play)--应用的版本号

1天前

代码 HuToolHttp 这个工具类在爬下载量的文章里 public static String getLastVersion(String packageName, String proxyType, String host, int

google play 爬虫项目

1天前

想要爬取google play的数据。首先google play没有提供任何api。那么仍想获取数据有以下两种方法： 1.爬web端googleplay的数据； 比较简单。已有项目

2024年最全Python爬虫之入门保姆级教程，学不会我去你家刷厕所，面试Python开发十大问题

18小时前

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助&a

10个Python爬虫框架推荐，你使用的是哪个呢？

18小时前

实现爬虫技术的编程环境有很多种，Java、Python、C等都可以用来爬虫。但很多人选择Python来写爬虫，为什么呢？因为Python确实很适合做爬虫&#xff0c

如何设置浏览QQ空间时的默认浏览器

2小时前

修改默认浏览器。操作步骤： 1、首先进入Win7控制面板。 2、进入控制面板后，由于默认的是简洁设置，找不到我们需要进入的计算机设置入口。因此我们这里需要点击右侧如下示意

华为手机怎么用计算机玩隐藏空间,华为隐私空间怎么用？开启隐私空间私人信息存储更安全...

2小时前

本帖最后由手机课代表于 2020-9-8 16:06 编辑华为隐私空间怎么用？现如今，一个人拥有两个微信，两个QQ已经很普遍，为的是能分别处理生活

国产处理器龙芯地址空间详解

1小时前

国产处理器龙芯地址空间详解原创程序猿的未来人生2020-06-13 09:04:07 MIPS基本逻辑地址空间 MIPS64架构下包含一个64位地址空间和一个32位地址空间，32位地址空间是64位地址空间的子集

21个Python爬虫开源项目代码，包含微信、淘宝、豆瓣、知乎、微博等

1小时前

2. DouBanSpider – 豆瓣读书爬虫可以爬下豆瓣读书标签下的所有图书，按评分排名依次存储，存储到Excel中，可方便大家筛选搜罗，比如筛

电子爱好者 - 最新技术资讯及电子产品介绍！

爬虫（三）生成qq好友关系网(2)—获取好友空间评论点赞情况

二. 获取好友空间评论点赞情况

到了最麻烦的一步了

github地址：嘤嘤嘤我就是那个地址，点我点我

重点来了！！！！！！！

1.1首先得得到一个好友的每一条说说，再得到这个好友的说说的评论点赞情况，再用好友列表循环这个过程即可

要得到一个好友的所有说说那么就，不断改变pos的值，循环发送http请求

1.2 那么再定义号写入txt的两个函数，

然后就是到了最最有意思的第三部分数据处理部分了

更多相关文章

U盘下载系统之后剩余空间只剩32G？

在Win7下删除Ubuntu系统分区后未分配空间如何恢复到原来的磁盘？

网络空间安全---计算机网络安全概述

U盘空间丢失的简单解决方法

雪球网股票用户评论爬虫

--force --grace-period=0强制删除名称空间无效解决办法

谷歌网站收录查询，教你怎么查询Google网站的收录情况

清华同方计算机配置情况,清华同方计算机还原卡安装使用说明

JS如何检测手机上APP是否安装的情况

计算机组装与维护学生情况分析,《计算机组装与维护》之机箱和电源的说课稿...

DLL修复工具问题排查：如何有效解决使用DLL修复工具后电脑蓝屏的情况

关于使用EB tresos出现无法激活的情况解决

Java 爬虫-谷歌商店(Google play)--应用的版本号

google play 爬虫项目

2024年最全Python爬虫之入门保姆级教程，学不会我去你家刷厕所，面试Python开发十大问题

10个Python爬虫框架推荐，你使用的是哪个呢？

如何设置浏览QQ空间时的默认浏览器

华为手机怎么用计算机玩隐藏空间,华为隐私空间怎么用？开启隐私空间私人信息存储更安全...

国产处理器龙芯地址空间详解

21个Python爬虫开源项目代码，包含微信、淘宝、豆瓣、知乎、微博等

发表评论

推荐文章

10从零开始学Java之开发Java必备软件Intellij idea的安装配置与使用

spring boot2.X word转pdf

WinRAR如何下载官方免费版

国产最强分布式调度，它回来了

统一通信 X(UCX) 实现高性能便携式网络加速-UCX入门教程HOTI2022

热门文章

理解ECMAScript 6：类和继承

FreeCAD 介绍

HTML与HTML5常用标签

java url连接被拒绝_由于连接拒绝，Java HttpUrlConnection连接超时不工作

Linux中yum命令超时无法下载

苹果商店下载不了软件怎么办？这几招可以试试看

记一次hadoop Connection refused: no further information排错

Tomcat8, Note: further occurrences of HTTP header parsing errors will be logged at DEBUG level.

【Spring Cloud】 CircuitBreaker 组件 resilience4j 一

身为三本的我就是凭借这些前端面试题拿到百度京东offer的，前端面试题及答案

最新文章

WIN10什么都没开内存占用率过高， WIN7单网卡设置双IP，命令续期

win7 64位 anaconda4.4 安装tensorflow cpu

win7右下角无线标识显示打着红叉实际可以上网怎么解决?

conda 无法激活base环境解决办法

centos7 网络连接激活失败 ip addr 没有ip地址

pywin32激活指定窗口，模拟键盘鼠标

win7下虚拟显示器完成记(virtual monitor)——VDI显卡透传场景

解决Anaconda环境未激活的warning

如何虚拟打印PDF文件（Win7）

win7激活DbgPrint输出

技嘉主板WIN7激活记

win7 显示未连接 连接可用

关于 win7 NT kernel&amp;system 占用大量CPU 问题

解决PyInstaller打包程序exe在win7运行异常问题（OSError: [WinError 87] 参数错误、Error loading Python DLL python39.dll等）

EFI 盘符 win7 2008 激活

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

win7 显示未连接连接可用

关于 win7 NT kernel&system 占用大量CPU 问题

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载