Python爬取腾讯视频评论|电子爱好者

admin管理员组
文章数量:1531482

目标网站：https://v.qq/
需要获取的数据：某部电影的评论数据，实现自动加载。

首先可以发现腾讯视频中某个视频的评论，在下面的图片中，如果点击”查看更多评论”，网页地址并无变化，与上面提到的糗事百科中的页码变化不同。而且通过查看源代码，只能看到部分评论。即评论信息是动态加载的，那么该如何爬取多页的评论数据信息？

第一步，分析腾讯视频评论网址变化规律。点击”查看更多评论”，同时打开Fiddler，第一条信息的TextView中，TextView中可以看到对应的content内容是unicode编码，刚好对应的是某条评论的内容。

解码出来可以看到对应评论内容。

将第一条信息的网址复制出来进行分析，观察其中的规律。下图是两个紧连着的不同评论的url地址，如下图，可以发现只有cursor字段发生变化，只要得到cursor，那么评论的地址就可以轻松获得。如何找到cursor值？

第二步，查找网址中变化的cursor字段值。从上面的第一条评论信息里寻找，发现恰好在last字段值与后一条评论的cursor值相同。即表示cursor的值是迭代方式生成的，每条评论的cursor信息在其上一条评论的数据包中寻找即可。

第三步，完整代码
a.腾讯视频评论爬虫:获取”深度解读”评论内容（单页评论爬虫）

#单页评论爬虫
#想要学习Python？Python学习交流群：984632579满足你的需求，资料都已经上传群文件，可以自行下载！
import urllib.request
import re
#https://video.coral.qq/filmreviewr/c/upcomment/[视频id]?commentid=[评论id]&reqnum=[每次提取的评论的个数]
#视频id
vid="j6cgzhtkuonf6te"
#评论id
cid="6233603654052033588"
num="20"
#构造当前评论网址
url="https://video.coral.qq/filmreviewr/c/upcomment/"+vid+"?commentid="+cid+"&reqnum="+num
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 Safari/537.36 SE 2.X MetaSr 1.0",
        "Content-Type":"application/javascript",
         }
opener=urllib.request.build_opener()
headall=[]
for key,value in headers.items():
    item=(key,value)
    headall.append(item)
opener.addheaders=headall
urllib.request.install_opener(opener)
#爬取当前评论页面
data=urllib.request.urlopen(url).read().decode("utf-8")
titlepat='"title":"(.*?)"'
commentpat='"content":"(.*?)"'
titleall=repile(titlepat,re.S).findall(data)
commentall=repile(commentpat,re.S).findall(data)
for i in range(0,len(titleall)):
    try:
        print("评论标题是:"+eval('u"'+titleall[i]+'"'))
        print("评论内容是:"+eval('u"'+commentall[i]+'"'))
        print("------")
    except Exception as err:
        print(err)

b.腾讯视频评论爬虫:获取”深度解读”评论内容（自动切换下一页评论的爬虫）

#自动切换下一页评论的爬虫
#想要学习Python？Python学习交流群：984632579满足你的需求，资料都已经上传群文件，可以自行下载！
import urllib.request
import re
#https://video.coral.qq/filmreviewr/c/upcomment/[视频id]?commentid=[评论id]&reqnum=[每次提取的评论的个数]
vid="j6cgzhtkuonf6te"
cid="6233603654052033588"
num="3"
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 Safari/537.36 SE 2.X MetaSr 1.0",
        "Content-Type":"application/javascript",
         }
opener=urllib.request.build_opener()
headall=[]
for key,value in headers.items():
    item=(key,value)
    headall.append(item)
opener.addheaders=headall
urllib.request.install_opener(opener)
#for循环，多个页面切换
for j in range(0,100):
    #爬取当前评论页面
    print("第"+str(j)+"页")
#构造当前评论网址thisurl="https://video.coral.qq/filmreviewr/c/upcomment/"+vid+"?commentid="+cid+
"&reqnum="+num
 data=urllib.request.urlopen(thisurl).read().decode("utf-8")
 titlepat='"title":"(.*?)","abstract":"'
 commentpat='"content":"(.*?)"'
 titleall=repile(titlepat,re.S).findall(data)
 commentall=repile(commentpat,re.S).findall(data)
 lastpat='"last":"(.*?)"'
 #获取last值，赋值给cid，进行评论id切换
 cid=repile(lastpat,re.S).findall(data)[0]
 for i in range(0,len(titleall)):
    try:
       print("评论标题是:"+eval('u"'+titleall[i]+'"'))
       print("评论内容是:"+eval('u"'+commentall[i]+'"'))
       print("------")
    except Exception as err:
       print(err)

本文标签：腾讯视频 Python

版权声明：本文标题：Python爬取腾讯视频评论内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1726539884a1074620.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Python爬取腾讯视频评论

更多相关文章

腾讯企业邮箱又一次隐藏了qq邮件列表的入口

python第三方插件登陆——QQ

php-gene邮箱,网易域名邮箱AND腾讯域名邮箱，域名设置参考

python邮件发送，QQ授权码设置

python：自动压缩指定文件夹作为附件发送邮件到指定邮箱

「Python爬虫系列讲解」十一、基于登录分析的 Selenium 微博爬虫

教你win10怎么从电脑查找隐藏视频

Win10 安装Python和pip

解决python运行selenium程序执行完后，Chrome浏览器自动关闭的问题

python操作无界面的chrome浏览器（转）

Chrome 浏览器关闭第三方Cookie会导致内嵌的哔哩哔哩视频无法加载

Python使用selenium附加已经打开的Chrome浏览器

Python的激活码

Python相关环境变量配置和模拟手机app登录

苹果笔记本适合学python吗_MacBook Pro适合深度学习吗？

python安装ERROR: matplotlib-3.6.2-pp38-pypy38_pp73-win_amd64.whl is not a supported wheel on this plat

【Python】dlib 无需编译安装 dlib-19.23.0-cp39-cp39-win_amd64.whl

win10实现开机播放视频

【探索】探究暴风影音视频截图黑屏原因

Python实现模拟按键刷搜狗拼音输入法字数

发表评论

推荐文章

Sicily 7968. Chess Competition

amd显卡怎么设置风扇？

Dell Vostro 3681硬盘分区安装Windows 10+ubuntu16.04.7

Windows 10搭建FTP服务器实现局域网文件共享

移动硬盘异常拔出后，mac上无法识别的问题

热门文章

【数据采集】亮数据浏览器、亮网络解锁器实战指南

解决谷歌chrome浏览器双击没反应，不能启动（亲测好用）

解决Chrome浏览器想要弹出警告框时会卡死的问题

PixPin 付费版 - 长截图贴图标注软件工具

2021-04-15

Debian 11 AMD Install driver

centos7.2安装五笔输入法的方法

win10系统常用优化项目加快系统性能

网秦手机杀毒软件 v2.1 pocketpc _wm5.0 下载

小米笔记本Air 13.3（第7代CPU平台驱动 指纹版）安装WIN7

最新文章

slice operation of consequence in python

ASUS华硕天选33P笔记本FA507R FA707R原装出厂Win11系统

System.DllNotFoundException: 无法加载 DLL“GdltaxIA.dll”: 内存位置访问无效。 (异常来自 HRESULT:0x800703E6)。WIN7系统...

自带原厂WIN8系统的THINKPAD，不能从装成WIN7?---解决方法！！！！

外星人m18R2国行中文版原厂预装23H2原装Win11系统恢复带F12恢复重置

Binary Tree Longest Consequence

安装系统时一直是程序正在启动服务器,全新安装win10卡在安装程序正在启动该怎么办？...

转载：使用win pe模式安装win7的时候出现“安装程序无法定位现有系统分区，也无法创建新的系统分区”提示

给苹果Air装WIN7系统

Dell戴尔笔记本电脑游匣G灵越Inspiron 成就Vostro 外星人Alienware系列 XPS原装Windows11系统出厂Win10系统

试用AI生成代码工具Fauxpilot,详细安装过程

miix2 10 linux,联想Miix320安装Win10+Ubuntu双系统引导的方法（超简单）

DELL各计算机系列原厂壁纸下载方法

X220下安装WIN7和Ubuntu双系统

三星Samsung Galaxy Book S W767高通处理器笔记本电脑Win10WIN11 ARM系统中文版

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

小米笔记本Air 13.3（第7代CPU平台驱动指纹版）安装WIN7

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载