今日头条爬虫实战|电子爱好者

admin管理员组
文章数量:1660710

今日头条爬虫实战

文章目录

今日头条爬虫实战
前言
一、怎么获取request url
二、爬虫测试
三、不间断爬虫

前言

本博客主要记录如何使用python爬虫抓取今日头条上面的新闻链接，然后按照新闻链接抓取新闻的文本信息，以及新闻的热度信息，即评论转发点赞的数量。

一、怎么获取request url

首先打开今日头条网站，https://www.toutiao/ch/news_hot/，注意要选择左边的热点选项，而不是推荐选项，即最后网址的后缀应该是news_hot

然后在当前页面按下ctrl+shift+i，进入浏览器开发者模式，在右上角选择network，如下：

找到以下XHR文件，即中间含有category=news_hot,并且在URL中前缀是https://www.toutiao/api/pc/feed/的XHR文件。
验证，点开preview可以看到所有新闻存储的data是以json形式存储，如下：

查看每一个新闻的内容：

这里面有很多参数，有media以及image的具体参数，新闻的title以及abstract，还有新闻源的url等等，因此我们可以得到新闻的各个参数，方便以后爬取更多的东西。

二、爬虫测试

这时候其实我们已经可以爬取了，今日头条的json文件是不断更新的，我们先尝试用最简单的request来爬取data里面的文件。

我们先获取User-agent 和 cookies
从刚才打开的XHR文件中的headers中可以找到：
如下图所示

获取完毕后使用最简单的requests来爬：
测试时间是2020年12月10号

import requests
	#请求头的书写
    headers = {
        'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
        'Cookie': 'csrftoken=a1cec75edb840d9c30e91b908b6df006; tt_webid=6903701895266567693; ttcid=de9284562a3d43158bbcf20f427c76bf38; s_v_web_id=verify_kifci8q5_95283jqK_hVnJ_46JY_BWm0_qh2CKMpqyzNp; tt_webid=6903701895266567693; passport_csrf_token=1360da074931584e4d0f4b71d11ecafe; sid_guard=888954813cb61b04ed109f48e8113b56%7C1607393426%7C5184000%7CSat%2C+06-Feb-2021+02%3A10%3A26+GMT; uid_tt=132acd819771d24afff611bdd48dc359; uid_tt_ss=132acd819771d24afff611bdd48dc359; sid_tt=888954813cb61b04ed109f48e8113b56; sessionid=888954813cb61b04ed109f48e8113b56; sessionid_ss=888954813cb61b04ed109f48e8113b56; tt_anti_token=LjrRoQn9d-fe7a8dbda23884fb006dfd76a297fa069a5ef454622aeb4f2994ae7dfe98ac87; __ac_signature=_02B4Z6wo00f017hqegwAAIBDAKwEUeNa15-4bn6AALHgKC7xunrfsuW0d0EgNAvNrli5JTxbZsoDbHSXIYivhqr4RNY5hZqu5s5PdidP7NkmcwuLCUaSrFmYbBzGkUxLlEUPzgL3ukXRVxfTc5; MONITOR_WEB_ID=5f72b98e-ffdf-406a-86be-15dee611591c; tt_scid=wHyPfUtWjE4zJRDRxq.8YEF2HX25EeVt8-bID9j3Txg3rI66rHH9D7xV9JXAMqKPdf64',
    }
    r = requests.get(url='https://www.toutiao/api/pc/feed/?min_behot_time=0&category=news_hot&utm_source=toutiao&widen=1&tadrequire=true&_signature=_02B4Z6wo00f01uYWKLAAAIBCXtBW7S9sSxbmEywAAOZltgS9dx7TKLd.DOq-TC1nLqQ1aA8.sbaw4YU0vtmmTo0wHJT7y1lZ4v3D4BmOdmNuyThwemlMFnGwhZIStsnlR46A4ymuGNCq1I9h32',headers=headers)  
    # 最基本的GET请求
    print(r.status_code)
    #输出请求状态码，200代表请求响应
    print(r.text)
	#这时输出的json文件是加密的
    data = json.loads(r.text)
    #使用json动态加载
    print(data['data'])
    #json文件访问
    print(len(data['data']))
    #新闻长度是12

输出是我们刚才看到的data文件里面的新闻的json文件：

这样就可以获得一个时间段头条热点里面的12条新闻的一些参数，我们可以建立一些列表来将其保存下来

三、不间断爬虫

至于如何不间断爬取更多的新闻我们需要解析request url是怎么生成的，参考下表，表是去年的，现在的url组成可能发生了变化，但是只要我们能找到request url的组成方式，即可以不断的爬取头条网站加载的json文件，挖掘出新闻信息，因为我也很久没弄这个了，先把去年的经验写下来给大家参考，然后具体的细节以及今年头条更改了反爬虫机制，所以需要大家在这一块稍微付出一点努力，然后就可以实现了，爬虫其实很简单，上面那个简单的request便是，大家可以先简单尝试，然后在继续进展后面的部分。

对比参数解释：

其中max_behot_time在获取的json数据中获得，具体数据见如下截图：

至此我们只是获得了爬虫的start url，在后续爬虫的时候需要按照上述参数表来获得新闻的url，从而爬取到新闻。

继续上文参数，python获取as和cp值：
至于这两个值，在去年爬虫的时候是需要的，而且可以在csdn中搜到相关的博客找到怎么得到as和cp值，至于selenium跟splash的方法今年开始都失效了，头条升级了反爬措施，针对性的ban掉了大部分的webdriver，常用的几个都不行了，现在正面硬缸sig参数似乎也不行。但是既然我们可以用request方法访问到json内部的数据，（上述简单测试于20201210），所以应该是可以刚出url的，相信自己奥利给！具体细节可以参考博文破解头条url参数
去年我们是随便找的一个代码：

def get_as_cp():  # 该函数主要是为了获取as和cp参数，程序参考今日头条中的加密js文件：home_4abea46.js
    zz = {}
    now = round(time.time())
    print(now) # 获取当前计算机时间
    e = hex(int(now)).upper()[2:] #hex()转换一个整数对象为16进制的字符串表示
    print('e:', e)
    a = hashlib.md5()  #hashlib.md5().hexdigest()创建hash对象并返回16进制结果
    print('a:', a)
    a.update(str(int(now)).encode('utf-8'))
    i = a.hexdigest().upper()
    print('i:', i)
    if len(e)!=8:
        zz = {'as':'479BB4B7254C150',
        'cp':'7E0AC8874BB0985'}
        return zz
    n = i[:5]
    a = i[-5:]
    r = ''
    s = ''
    for i in range(5):
        s= s+n[i]+e[i]
    for j in range(5):
        r = r+e[j+3]+a[j]
    zz ={
    'as':'A1'+s+e[-3:],
    'cp':e[0:3]+r+'E1'
    }
    print('zz:', zz)
    return zz

这样完整的链接就构成了，另外提一点就是：_signature参数去掉也是可以获取到json数据的，因此这样请求的链接就完成了；下面附上完整代码：

这份代码其实是具备参考价值的，只要可以找到今年头条url的相关参数，就可以继续进展下去
其中只要能摸索出目前今日头条的url组成，基本任务就成功了，加油！

import requests
import json
from openpyxl import Workbook
import time
import hashlib
import os
import datetime
 #可能不一样
start_url = 'https://www.toutiao/api/pc/feed/?min_behot_time=0&category=news_hot&utm_source=toutiao&widen=1&max_behot_time='
url = 'https://www.toutiao'
 
headers={
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}
cookies = {''} # 此处cookies可从浏览器中查找，为了避免被头条禁止爬虫
 
max_behot_time = '0'   # 链接参数
title = []       # 存储新闻标题
source_url = []  # 存储新闻的链接
s_url = []       # 存储新闻的完整链接
source = []      # 存储发布新闻的公众号
media_url = {}   # 存储公众号的完整链接
 
 
def get_as_cp():  # 该函数主要是为了获取as和cp参数，程序参考今日头条中的加密js文件：home_4abea46.js
    zz = {}
    now = round(time.time())
    print(now) # 获取当前计算机时间
    e = hex(int(now)).upper()[2:] #hex()转换一个整数对象为16进制的字符串表示
    print('e:', e)
    a = hashlib.md5()  #hashlib.md5().hexdigest()创建hash对象并返回16进制结果
    print('a:', a)
    a.update(str(int(now)).encode('utf-8'))
    i = a.hexdigest().upper()
    print('i:', i)
    if len(e)!=8:
        zz = {'as':'479BB4B7254C150',
        'cp':'7E0AC8874BB0985'}
        return zz
    n = i[:5]
    a = i[-5:]
    r = ''
    s = ''
    for i in range(5):
        s= s+n[i]+e[i]
    for j in range(5):
        r = r+e[j+3]+a[j]
    zz ={
    'as':'A1'+s+e[-3:],
    'cp':e[0:3]+r+'E1'
    }
    print('zz:', zz)
    return zz
 
 
def getdata(url, headers, cookies):  # 解析网页函数
    r = requests.get(url, headers=headers, cookies=cookies)
    print(url)
    data = json.loads(r.text)
    return data
 
 
def savedata(title, s_url, source, media_url):  # 存储数据到文件
    # 存储数据到xlxs文件
    wb = Workbook()
    if not os.path.isdir(os.getcwd()+'/result'):   # 判断文件夹是否存在
        os.makedirs(os.getcwd()+'/result') # 新建存储文件夹
    filename = os.getcwd()+'/result/result-'+datetime.datetime.now().strftime('%Y-%m-%d-%H-%m')+'.xlsx' # 新建存储结果的excel文件
    ws = wb.active
    ws.title = 'data'   # 更改工作表的标题
    ws['A1'] = '标题'   # 对表格加入标题
    ws['B1'] = '新闻链接'
    ws['C1'] = '头条号'
    ws['D1'] = '头条号链接'
    for row in range(2, len(title)+2):   # 将数据写入表格
        _= ws.cell(column=1, row=row, value=title[row-2])
        _= ws.cell(column=2, row=row, value=s_url[row-2])
        _= ws.cell(column=3, row=row, value=source[row-2])
        _= ws.cell(column=4, row=row, value=media_url[source[row-2]])
 
    wb.save(filename=filename)  # 保存文件
 
 
 
def main(max_behot_time, title, source_url, s_url, source, media_url):   # 主函数
    for i in range(3):   # 此处的数字类似于你刷新新闻的次数，正常情况下刷新一次会出现10条新闻，但夜存在少于10条的情况；所以最后的结果并不一定是10的倍数
    ##--------------------------------------------
    #这一部分就是url的组成部分肯定和今年不一样了，然后获取到的json文件的处理后面基本不难，就是分离出相应的参数
        ascp = get_as_cp()    # 获取as和cp参数的函数
        demo = getdata(start_url+max_behot_time+'&max_behot_time_tmp='+max_behot_time+'&tadrequire=true&as='+ascp['as']+'&cp='+ascp['cp'], headers, cookies)
   ##------------------------------------------
        print(demo)
        # time.sleep(1)
        for j in range(len(demo['data'])):
            # print(demo['data'][j]['title'])
            if demo['data'][j]['title'] not in title:
                title.append(demo['data'][j]['title'])  # 获取新闻标题
                source_url.append(demo['data'][j]['source_url'])  # 获取新闻链接
                source.append(demo['data'][j]['source'])  # 获取发布新闻的公众号
            if demo['data'][j]['source'] not in media_url:
                media_url[demo['data'][j]['source']] = url+demo['data'][j]['media_url']  # 获取公众号链接
        print(max_behot_time)
        max_behot_time = str(demo['next']['max_behot_time'])  # 获取下一个链接的max_behot_time参数的值
        for index in range(len(title)):
            print('标题：', title[index])
            if 'https' not in source_url[index]:
                s_url.append(url+source_url[index])
                print('新闻链接：', url+source_url[index])
            else:
                print('新闻链接：', source_url[index])
                s_url.append(source_url[index])
                # print('源链接：', url+source_url[index])
            print('头条号：', source[index])
            print(len(title))   # 获取的新闻数量
 
if __name__ == '__main__':
    main(max_behot_time, title, source_url, s_url, source, media_url)
    savedata(title, s_url, source, media_url)

本文标签：爬虫头条实战今日

版权声明：本文标题：今日头条爬虫实战内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1729881239a1215945.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

今日头条爬虫实战

今日头条爬虫实战

文章目录

前言

一、怎么获取request url

二、爬虫测试

三、不间断爬虫

更多相关文章

仿头条新闻嵌入富文本编辑器

Android基于viewpager和tablayout实现类似今日头条和腾讯新闻的界面

头条php,基于PHP的免费新闻头条接口查询

（android高仿系列）今日头条 --新闻阅读器 （二）

GitHub：今日头条机器人

高仿今日头条超级今日头条带手移动端商业版（GBK+UTF）网站模板头条资讯源码 Discuz模板

java新闻爬虫_java实现简单的爬虫之今日头条

今日头条 mysql_今日头条这么牛逼，用了什么技术？

Android Studio初学者实例：RecyclerView学习--模仿今日头条

python爬取今日头条手机app广告_今日头条App广告采集器的实现

头条限流是什么原因_今日头条为什么会被限流 今日头条封禁有期限吗

青龙面板----今日头条脚本修复版

今日头条大数据架构

Markdown转换成公众号、知乎、今日头条格式，已开源

iOS仿今日头条顶部新闻分页

今日头条付费项目，帮你赚到更多的钱，学会钱生钱的玩法

java爬虫系列（五）——今日头条文章爬虫实战

playwrite今日头条自动发帖

用requests包爬取今日头条新闻标题

Python爬虫从入门到精通——爬虫实战：爬取今日头条图片新闻

发表评论

推荐文章

windows系统怎么设置五笔输入法

常用html5阅览器,最好的网页浏览器排行，速度最快的四大浏览器分享

IOS手机安装完fiddler证书后依然无法上网

Serv-U FTP Server 6.4.0.2注册码(注册密钥)

oracle decode(nvl(estimate_qty,0),0,1,estimate_qty) 函數

热门文章

qq邮箱 android 3.0 评测,QQ邮箱Android0.9.5版本最新邮箱评测体验

word打开文档很久很慢_word文档打开速度慢的几个原因和解决方法

kingroot4.9

• Agentic workflow加速Agentic AI到来，AI Agent成为重要实现方式

Tahiti: Voices of Paradise 专辑中文名: 大溪地：天堂之声

毛主席诗词抄写

微信浏览器安卓手机video浮在最上层问题

Linux cpufreq 机制了解

打开ps提示dll文件丢失如何解决？教你几种靠谱的方法

Python爬取最爱的电影并下载到本地（附源码）

最新文章

DEll重装系统之安装软件（Eclipse和集成MAVEN和激活office（使用KMS)）

【转】KMS error code 0x8007000d 解决方法

Visio2013激活破解

Unraid安装KMS Docker激活Windows+Office

VAMT3管理工具:查看哪些客户端使用kms进行了激活

极路由KMS_Activator插件使用教程

window7下visio 201364位激活工具

电脑如何激活windows

教你一段代码激活计算机系统

如何激活Windows server服务器

会员业务基于Cloud KMS的数据安全应用

开源工具专题-02 Confluence企业级wiki

开源项目激活脚本（Activation Script）安装与使用指南

图解支付-金融级密钥管理系统：构建支付系统的安全基石_kms框架

10款你一定不知道的实用工具！

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

（android高仿系列）今日头条 --新闻阅读器（二）

头条限流是什么原因_今日头条为什么会被限流今日头条封禁有期限吗

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载