用Python爬取B站、腾讯视频、芒果TV和爱奇艺视频弹幕|电子爱好者

admin管理员组
文章数量:1531375

众所周知，弹幕，即在网络上观看视频时弹出的评论性字幕。不知道大家看视频的时候会不会点开弹幕，于我而言，弹幕是视频内容的良好补充，是一个组织良好的评论序列。通过分析弹幕，我们可以快速洞察广大观众对于视频的看法。

J哥通过一个关于《八佰》的视频弹幕数据，绘制了如下词云图，感觉效果还是可以的。

海量的弹幕数据不仅可以绘制此类词云图，还可以调用百度AI进行情感分析。那么，我们该如何获取弹幕数据呢？本文运用Python爬取B站视频、腾讯视频、芒果TV和爱奇艺视频等弹幕，让你轻松获取主流视频网站弹幕数据。

一、B站视频弹幕

1.网页分析

本文以爬取up主硬核的半佛仙人发布的《你知道奶茶加盟到底有多坑人吗？》视频弹幕为例，首先通过以下步骤找到存放弹幕的真实url。

简单分析url参数，很显然，date参数表示发送弹幕的时间，其他参数均无变化。因此，只需要改变date参数，然后通过beautifulsoup解析到弹幕数据即可。

2.爬虫实战

import requests #请求网页数据
from bs4 import BeautifulSoup #美味汤解析数据
import pandas as pd
import time
from tqdm import trange #获取爬取速度

def get_bilibili_url(start, end):
    url_list = []
    date_list = [i for i in pd.date_range(start, end).strftime('%Y-%m-%d')]
    for date in date_list:
        url = f"https://api.bilibili/x/v2/dm/history?type=1&oid=141367679&date={date}"
        url_list.append(url)
    return url_list

def get_bilibili_danmu(url_list):
    headers = {
        "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36",
        "cookie": "你自己的" #Headers中copy即可
               }

    file = open("bilibili_danmu.txt", 'w')
    for i in trange(len(url_list)):
        url = url_list[i]
        response = requests.get(url, headers=headers)
        response.encoding = 'utf-8'
        soup = BeautifulSoup(response.text)
        data = soup.find_all("d")
        danmu = [data[i].text for i in range(len(data))]
        for items in danmu:
            file.write(items)
            file.write("\n")
        time.sleep(3)
    file.close()


if __name__ == "__main__":
    start = '9/24/2020' #设置爬取弹幕的起始日
    end = '9/26/2020' #设置爬取弹幕的终止日
    url_list = get_bilibili_url(start, end)
    get_bilibili_danmu(url_list)
    print("弹幕爬取完成")

3.数据预览

二、腾讯视频弹幕

1.网页分析

本文以爬取《脱口秀大会第3季》最后一期视频弹幕为例，首先通过以下步骤找到存放弹幕的真实url。

通过删减各参数，发现仅有timestamp参数的变化会影响弹幕数据的爬取，且timestamp参数是首项为15，公差为30的等差数列。可以大胆猜测腾讯视频每30秒更新一页弹幕数据，该视频长度为12399秒。而数据格式为标准的json格式，因此json.loads直接解析数据即可。

2.爬虫实战

import requests
import json
import time
import pandas as pd

df = pd.DataFrame()
for page in range(15, 12399, 30):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
    url = 'https://mfm.video.qq/danmu?otype=json&timestamp={}&target_id=5938032297%26vid%3Dx0034hxucmw&count=80'.format(page)
    print("正在提取第" + str(page) + "页")
    html = requests.get(url,headers = headers)
    bs = json.loads(html.text,strict = False)  #strict参数解决部分内容json格式解析报错
    time.sleep(1)
    #遍历获取目标字段
    for i in bs['comments']:
        content = i['content']  #弹幕
        upcount = i['upcount']  #点赞数
        user_degree =i['uservip_degree'] #会员等级
        timepoint = i['timepoint']  #发布时间
        comment_id = i['commentid']  #弹幕id
        cache = pd.DataFrame({'弹幕':[content],'会员等级':[user_degree],
                              '发布时间':[timepoint],'弹幕点赞':[upcount],'弹幕id':[comment_id]})
        df = pd.concat([df,cache])
df.to_csv('tengxun_danmu.csv',encoding = 'utf-8')
print(df.shape)

3.数据预览

三、芒果TV弹幕

1.网页分析

本文以爬取《乘风破浪的姐姐》最后一期视频弹幕为例，首先通过以下步骤找到存放弹幕的真实url。

通过分析参数，我们可以发现，芒果TV会生成首项为0，公差为1的等差数列json弹幕文件，每个json文件存储前一分钟内所有的弹幕数据。弹幕数据存放格式为json，数据解析较为简单。

2.爬虫实战

import requests
import json
import pandas as pd

def get_mangguo_danmu(num1, num2, page):
    try:
        url = 'https://bullet-ws.hitv/bullet/2020/09/29/{}/{}/{}.json'
        print("正在爬取第" + str(page) + "页")
        danmuurl = url.format(num1, num2, page)
        res = requests.get(danmuurl)
        res.encoding = 'utf-8'
        #print(res.text)
        data = json.loads(res.text)
    except:
        print("无法连接")

    details = []
    for i in range(len(data['data']['items'])):  # 弹幕数据在json文件'data'的'items'中
        result = {}
        result['stype'] = num2  # 通过stype可识别期数
        result['id'] = data['data']['items'][i]['id']  # 获取id

        try:  # 尝试获取uname
            result['uname'] = data['data']['items'][i]['uname']
        except:
            result['uname'] = ''

        result['content'] = data['data']['items'][i]['content']  # 获取弹幕内容
        result['time'] = data['data']['items'][i]['time']  # 获取弹幕发布时间

        try:  # 尝试获取弹幕点赞数
            result['v2_up_count'] = data['data']['items'][i]['v2_up_count']
        except:
            result['v2_up_count'] = ''
        details.append(result)

    return details

#输入关键信息
def count_danmu():
    danmu_total = []
    num1 = input('第一个数字')
    num2 = input('第二个数字')
    page = int(input('输入总时长'))
    for i in range(page):
        danmu_total.extend(get_mangguo_danmu(num1, num2, i))

    return danmu_total

def main():
    df = pd.DataFrame(count_danmu())
    df.to_csv('mangguo_danmu.csv')

if __name__ == '__main__':
    main()

3.数据预览

四、爱奇艺弹幕

1.网页分析

本文以爬取《乐队的夏天第2季》第13期上视频弹幕为例，首先通过以下步骤找到存放弹幕的真实url。

分析弹幕真实url，我们发现，参数5981449914376200是视频tvid，参数62是tvid倒数4为的前两位，参数00是tvid的最后两位，.z前的参数1为视频总时长除以300秒向上取整。观察相邻两个弹幕文件包，可以看出爱奇艺每5分钟更新一次弹幕文件。

由于直接爬取出来的弹幕文件存在乱码，需要进行二进制编码，方可得到最终的弹幕数据。

2.爬虫实战

import zlib
import requests

# 1.爬取xml文件
def download_xml(url):
    bulletold = requests.get(url).content  # 二进制内容
    return zipdecode(bulletold)

def zipdecode(bulletold):
    '对zip压缩的二进制内容解码成文本'
    decode = zlib.decompress(bytearray(bulletold), 15 + 32).decode('utf-8')
    return decode

for x in range(1,12):
    # x是从1到12，12怎么来的，这一集总共57分钟，爱奇艺每5分钟会加载新的弹幕,57除以5向上取整
    url = 'https://cmts.iqiyi/bullet/62/00/5981449914376200_300_' + str(x) + '.z'
    xml = download_xml(url)
    # 把编码好的文件分别写入17个xml文件中（类似于txt文件），方便后边取数据
    with open('./aiqiyi/iqiyi' + str(x) + '.xml', 'a+', encoding='utf-8') as f:
        f.write(xml)

# 2.读取xml文件中的弹幕数据数据
from xml.dom.minidom import parse
import xml.dom.minidom
def xml_parse(file_name):
    DOMTree = xml.dom.minidom.parse(file_name)
    collection = DOMTree.documentElement
    # 在集合中获取所有entry数据
    entrys = collection.getElementsByTagName("entry")
    print(entrys)
    result = []
    for entry in entrys:
        content = entry.getElementsByTagName('content')[0]
        print(content.childNodes[0].data)
        i = content.childNodes[0].data
        result.append(i)
    return result

with open("aiyiqi_danmu.txt", mode="w", encoding="utf-8") as f:
    for x in range(1,12):
        l = xml_parse("./aiqiyi/iqiyi" + str(x) + ".xml")
        for line in l:
            f.write(line)
            f.write("\n"

3.数据预览

●Pandas进阶文章！

●取数，取数，取个屁啊！

后台回复“入群”即可加入小z数据干货交流群

本文标签：腾讯视频芒果弹幕 Python

版权声明：本文标题：用Python爬取B站、腾讯视频、芒果TV和爱奇艺视频弹幕内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1726540024a1074630.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

用Python爬取B站、腾讯视频、芒果TV和爱奇艺视频弹幕

一、B站视频弹幕

1.网页分析

本文以爬取up主硬核的半佛仙人发布的《你知道奶茶加盟到底有多坑人吗？》视频弹幕为例，首先通过以下步骤找到存放弹幕的真实url。

二、腾讯视频弹幕

1.网页分析

3.数据预览

3.数据预览

四、爱奇艺弹幕

1.网页分析

本文以爬取《乐队的夏天第2季》第13期上视频弹幕为例，首先通过以下步骤找到存放弹幕的真实url。

3.数据预览

更多相关文章

python自动发送QQ邮箱

【腾讯敏捷转型No.7】QQ邮箱如何通过敏捷成为行业第一

pythonQQ邮箱自动发送邮件

为什么qq没有位置服务器,腾讯QQ内测扩列功能上线 2019QQ扩列为什么找不到

python定时发qq消息_Python如何实现定时发送qq消息

limux 卡登录界面_腾讯企点客服界面及会话列表简介

win10环境下，Python、PyCharm的下载安装及PyCharm其中如何import对应包-cvcuda等

0516---win10 chrome 浏览器播放视频没有声音的解决办法

Python相关环境变量配置和模拟手机app登录

win10安装python27_《win10python27安装教程》 win10怎么安装python

1.Python教程--基础篇（全）

python编程amd和intel哪个好_计算机专业 CPU 应该用 AMD 还是 Intel？

amd插帧技术如何开启_不要浪费那块屏幕，联想小新13 Pro AMD锐龙标压版视频插帧设置...

Python：实现视频播放器（附完整源码）

C++打造暴风影音视频播放器项目，手把手教你打造个人播放器

android ipad 传视频播放器,三种将本地视频导入到iPad中的方法

华为搜索引擎在国内正式上线；马化腾：腾讯只是一家普通公司；荣耀赵明：把苹果卷下来那才是本事 | EA周报...

windows10应该安装python那个版本_win 10安装python（详细讲解）

腾讯wifi管家竟然盗取我家wifi密码惊讶！震惊！失望！

Windows7系统下Python及Pandas等数据分析工具包安装

发表评论

推荐文章

BCI Competition IV 2a数据集介绍

手撕promise--promise的底层实现＜究极详细＞

电脑系统卡死怎么办-电脑屏幕全黑或者全白，桌面上空无一物，底部任务栏不见，鼠标指示头在转圈圈，CPU和磁盘100%占用率

【踩坑记录】搭建 RTX3090 深度学习服务器 (从系统重装到跑起DL)

win10 移动硬盘“拒绝访问”解决方案

热门文章

ChatGPT高效提问—prompt常见用法（续篇二）

使用生成式人工智能进行系统评价的科学文献搜索：ChatGPT 和 Microsoft Bing AI 性能评估

U盘为RAW格式无法格式化问题解决办法

Win10系统更改或删除pin码的方法--win7w.com

脚本录制pc_如何使用片段录制PC游戏的画面

插入安装光盘并重新启动计算机,电脑开机时显示 插入windows安装光盘并重新启动计算机 怎么解决 急救...

四款支持 H.265 格式视频的免费播放器推荐

windows10系统下如何关闭后台java程序

随身WiFi-openwrt-旁路由-安装青龙-挂在U盘教程

西数移动硬盘 不能同时识别 2块

最新文章

工作站 linux系统安装win7,Dell T7500工作站 Win7RHEL5.5双系统启动菜单修复

将数据从硬盘读取到内存中详解

移动硬盘修复的有效方法，恢复移动硬盘的数据这么做！

Ubuntu14无法识别U盘和硬盘

如何在IPad上优雅地看移动硬盘中的视频

M1 安装Mounty 解决 Mac 移动硬盘NTFS 不支持 复制粘贴问题

linux硬盘对拷慢,解决NTFS拷贝文件远比磁盘物理读取速度慢的问题

mac支持读取写入ntfs的插件 mac用ntfs文件夹读写ntfs硬盘

苹果 Mac 上不显示外置硬盘？9 个必须尝试的修复方法

Linux怎样低格移动硬盘,移动硬盘低级格式化操作方法详细步骤【图文详解】

【解决办法】移动硬盘在电脑上显示“本地磁盘”并且出现打不开的情况

移动硬盘部分分区不能识别解决方法

mac支持读取写入ntfs的插件 mac用ntfs文件夹读写ntfs硬盘 mac读写ntfs软件

移动硬盘或U盘windows识别慢的一个原因

移动硬盘变成RAW，如何将其转换为NTFS

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

插入安装光盘并重新启动计算机,电脑开机时显示插入windows安装光盘并重新启动计算机怎么解决急救...

西数移动硬盘不能同时识别 2块

M1 安装Mounty 解决 Mac 移动硬盘NTFS 不支持复制粘贴问题

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载