今日头条标签新闻的爬取|电子爱好者

admin管理员组
文章数量:1660709

本文主要讲，用户输入标签后，通过爬虫，可实现获取相关的新闻，将获取的新闻保存为.csv文件。

前期准备

首先导入需要的第三方库

import requests
import time
import random
import json
import pandas as pd

以‘爱国’标签为例，获取的网址为：https://www.toutiao/api/search/content/?aid=24&app_name=web_search&offset=0&format=json&keyword=%E7%88%B1%E5%9B%BD&autoload=true&count=20&en_qc=1&cur_tab=1&from=search_tab&pd=synthesis&timestamp=1569648697670】

我们可以发现中间有一个keyword,经验告诉我们，这个就是标签，我们需要改变的的也正是这个，同时我们也该注意到url最后面有一个 timestamp，这个是时间戳，为了避免长时间使用同一个时间戳，这里需要引入time模块，生成一个即时的时间戳。

代码如下：

# 输入标签名
keyword = input('请输入标签名称：')
# 生成时间戳
timestamp = round(time.time()*1000)  
# 生成url
url = f'https://www.toutiao/api/search/content/?aid=24&app_name=web_search&offset=0&format=json&keyword={keyword}&autoload=true&count=20&en_qc=1&cur_tab=1&from=search_tab&pd=synthesis&timestamp={timestamp}'

headers的伪装

今日头条的反爬挺厉害的，如果headers中不传入cookie,是无法多次都返回我们需要的新闻内容的，而cookie的获取有简单的方式就是复制粘贴；即打开一个标签的文章，打开开发者工具，在headers中复制cookie，如图;

headers的伪装代码如下:

UserAgent_list = ['Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36',
                  'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
                  'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36']
Cookie = 'tt_webid=6741334664763835907; WEATHER_CITY=%E5%8C%97%E4%BA%AC; ' \
                 'tt_webid=6741334664763835907; csrftoken=af5535d3c7e019b988ec0f93b7f1774d; ' \
                 's_v_web_id=9985dd97ccfd39b145674d0955a295a1; ' \
                 '__tasessionId=pj925vib61569648686929'
headers = {
            'User-Agent': random.choices(UserAgent_list),  # 使用random模块中的choices()方法随机从列表中提取出一个内容
            'Cookie': Cookie
        }

请求页面和页面解析

以

'https://www.toutiao/api/search/content/?aid=24&app_name=web_search&offset=0&format=json&keyword=%E6%B3%95%E5%9B%BD&autoload=true&count=20&en_qc=1&cur_tab=1&from=search_tab&pd=synthesis&timestamp=1569650894434'

为例；

我们打开开发者工具点击左边第一个可以看到如下图面：

经过分析，我们可以发现新闻主要在字段'data'中:

需要注意的是：data中并非所有都是新闻，最后我发现当出现‘abstract’这个字段时，一定是新闻，这里可以借此加一个判断

点开data中的其中一个内容，如图：

而我们需要的提取的内容分别就是字段：abstract,articleurl,commentscount,datetime,read_count,title

代码实现：

response = requests.get(url, headers=headers)
response.encoding = 'utf-8'
news_json = json.loads(response.text)
news_data = news_json['data']
# 创建相关的列表来保存相关的内容
title_list = []
news_content_list = []
news_time_list = []
read_count_list = []
comment_count_list = []
news_url_list = []
news_keyword_list = []
# 遍历news_data,提取相关的内容
for news in news_data:
    # 加入一个判断条件，判断是否为新闻
    if 'abstract' in news.keys():
        # 标题
        title_list.append(news['title'])
        # 新闻内容
        news_content_list.append(news['abstract'])
        # 发布时间
        news_time_list.append(news['datetime'])
        # 阅读量
        read_count_list.append(news['read_count'])
        # 评论数
        comment_count_list.append(news['comment_count'])
        # 新闻链接
        news_url_list.append(news['article_url'])
        # 新闻关键字
        news_keyword_list.append(news['keyword'])
# 将获取的内容组成字典
news_info_dict = dict()
news_info_dict['title'] = title_list
news_info_dict['content'] = news_content_list
news_info_dict['read_count'] = read_count_list
news_info_dict['news_time'] = news_time_list
news_info_dict['comment_count'] = comment_count_list
news_info_dict['news_url'] = news_url_list
news_info_dict['news_keyword'] = news_keyword_list

新闻内容的保存

使用pandas库的to_csv来保存成.csv文件

代码如下：

news_DF = pd.DataFrame(news_info_dict)
news_DF.to_csv(self.keyword+'标签的新闻内容.csv', mode='a', encoding='utf_8_sig')  # 如果使用‘utf-8’编码，还出现中文乱码，建议使用'utf_8_sig'
print('文件保存成功！！')

完整代码

上面的是按顺序执行下来的，而完整代码我是用面向对象的编程方式（即使用类）

完整代码如下：

# 导入所需的库
import requests
import json
import pandas as pd
import time
import random

class toutiao_spider():
    def __init__(self, keyword):
        # 标签名
        self.keyword = keyword
        # 生成一个13位的时间戳
        self.timestamp = round(time.time()*1000)

    def get_headers(self):
        """
        headers伪装：User-Agent和Cookie
        :return: headers
        """
        UserAgent_list = ['Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36',
                          'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
                          'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36']
        Cookie = 'tt_webid=6741334664763835907; WEATHER_CITY=%E5%8C%97%E4%BA%AC; ' \
                 'tt_webid=6741334664763835907; csrftoken=af5535d3c7e019b988ec0f93b7f1774d; ' \
                 's_v_web_id=9985dd97ccfd39b145674d0955a295a1; ' \
                 '__tasessionId=pj925vib61569648686929'

        headers = {
            'User-Agent': random.choices(UserAgent_list)[0],  # 使用random模块中的choices()方法随机从列表中提取出一个内容
            'Cookie': Cookie
        }
        return headers

    def get_news_info(self, json_data):
        """
        传入json格式的内容，对内容进行提取：分别提取新闻的标题及内容，发布日期，阅读量，评论数，新闻url，新闻所属的关键字
        :param json_data: json格式的文本
        :return: news_info_dict
        """

        # 将json格式转化为字典格式
        dict_data = json.loads(json_data, encoding='utf-8')
        # 新闻的主要内容都在dict_data中的data字段中
        news_data = dict_data['data']
        # 创建相关的列表来保存相关的内容
        title_list = []
        news_content_list = []
        news_time_list = []
        read_count_list = []
        comment_count_list = []
        news_url_list = []
        news_keyword_list = []
        # 遍历news_data,提取相关的内容
        for news in news_data:
            # 加入一个判断条件，判断是否为新闻
            if 'abstract' in news.keys():
                # 标题
                title_list.append(news['title'])
                # 新闻内容
                news_content_list.append(news['abstract'])
                # 发布时间
                news_time_list.append(news['datetime'])
                # 阅读量
                read_count_list.append(news['read_count'])
                # 评论数
                comment_count_list.append(news['comment_count'])
                # 新闻链接
                news_url_list.append(news['article_url'])
                # 新闻关键字
                news_keyword_list.append(news['keyword'])
        # 将获取的内容组成字典
        news_info_dict = dict()
        news_info_dict['title'] = title_list
        news_info_dict['content'] = news_content_list
        news_info_dict['read_count'] = read_count_list
        news_info_dict['news_time'] = news_time_list
        news_info_dict['comment_count'] = comment_count_list
        news_info_dict['news_url'] = news_url_list
        news_info_dict['news_keyword'] = news_keyword_list
        return news_info_dict

    def save_to_csv(self, news_info_dict):
        """
        使用pandas中的to_csv()将新闻内容保存为.csv 文件
        :param news_info_dict: 新闻内容字典
        :return:
        """

        news_DF = pd.DataFrame(news_info_dict)
        news_DF.to_csv(self.keyword+'标签的新闻内容.csv', mode='a', encoding='utf_8_sig')  # 如果使用‘utf-8’编码，还出现中文乱码，建议使用'utf_8_sig'
        print('文件保存成功！！')

    def get_response(self):
        """
        请求页面
        :return:json_data
        """

        # 拼接url
        url = f'https://www.toutiao/api/search/content/?aid=24&app_name=web_search&offset=0&format=json&keyword={self.keyword}&autoload=true&count=20&en_qc=1&cur_tab=1&from=search_tab&pd=synthesis&timestamp={self.timestamp}'
        # 获取headers
        headers = self.get_headers()
        # 请求页面
        response = requests.get(url=url, headers=headers)
        if response.status_code == 200:
            print('请求成功！！')
        else:
            print('请求失败，正在尝试发起请求！！')
            self.get_response()
        json_data = response.text
        return json_data

    def run(self):
        """
        主运行函数
        :return:
        """
        json_data = self.get_response()
        news_info_dict = self.get_news_info(json_data)
        self.save_to_csv(news_info_dict)


if __name__ == '__main__':
     spider = toutiao_spider(keyword='爱国')
     spider.run()

以上就是本期的内容，本文如果存在不足和错误欢迎指出，谢谢大家的阅读！！！

本文标签：头条标签今日新闻

版权声明：本文标题：今日头条标签新闻的爬取内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1729881302a1215953.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

今日头条标签新闻的爬取

前期准备

headers的伪装

请求页面和页面解析

新闻内容的保存

完整代码

更多相关文章

今日头条品质优化 - 图文详情页秒开实践

推荐开源项目：react-toutiao - React 实现的今日头条

高仿今日头条超级今日头条带手移动端商业版（GBK+UTF）网站模板头条资讯源码 Discuz模板

今日头条 mysql_今日头条这么牛逼，用了什么技术？

采集今日头条数据 python 爬虫 API接口

抓取今日头条新闻

ai爆文写作技巧，小白轻松上手今日头条掘金方法，可多平台

今日头条接口

今日头条 mysql_今日头条的核心技术细节是什么？

iOS仿今日头条顶部新闻分页

揭秘！今日头条爆款文章打造秘诀：低粉作者如何逆袭，成为流量王者？一文带你掌握！

（android高仿系列）今日头条 --新闻阅读器 （三） 完结 、总结 篇

今日头条付费项目，帮你赚到更多的钱，学会钱生钱的玩法

java爬虫系列（五）——今日头条文章爬虫实战

python 刷手机今日头条金币_刷金币全自动脚本 | 让Python每天帮你薅一个早餐钱（送源码）...

Django项目实践（爬取今日头条的头条热榜）

Java爬虫实践：Jsoup+HttpUnit爬取今日头条、网易、搜狐、凤凰新闻

playwrite今日头条自动发帖

vue仿今日头条_微信小程序仿今日头条导航栏滚动解析

用requests包爬取今日头条新闻标题

发表评论

推荐文章

在网页应用中实现QQ登录

单核浏览器和双核浏览器有什么区别，哪个好用？

Windows操作系统下载Anaconda安装包

iMeta | 兰州大学张东青年研究员：使用PhyloSuite进行分子系统发育及系统发育树的统计分析...

微软Win8&amp;Server2012各版本安装密匙序列号

热门文章

ERP打假：九大缺陷揭露 (转)

Mac使用dd命令速度奇慢的解决方式

怎么给文档加密？这两种办法简单又实用

Win8 CPU占用率高，服务主机：本地服务进程占用CPU高

MPLSLDP原理介绍+报文分析+配置示例

Win11系统提示找不到DeviceSetupManager.dll文件的解决办法

win7系统如何访问xp系统的服务器,WIN7系统怎么让XP系统访问呢

联通突然从4g变成3g了_联通4G跳到3G无法上网，如何恢复4G上网？

在Linux服务器上如何配置用户的sudo权限，教你配置如何让用户只能读写文件、上传文件、下载文件，但是不能删除文件

ORBSLAM3 --- 优化（一）：g2o优化中的节点与边的定义-G2oTypes.h、G2oTypes.cc解析

最新文章

【转】KMS error code 0x8007000d 解决方法

Visio2013激活破解

Unraid安装KMS Docker激活Windows+Office

VAMT3管理工具:查看哪些客户端使用kms进行了激活

【无标题】win11 kms 所请求的操作需要提升权限。 页面不可用你的IT管理员已限制对此应用的某些区域的访问，并且你尝试访问的项目不可用。有关详细信息，请与IT支持人员联系。

极路由KMS_Activator插件使用教程

window7下visio 201364位激活工具

电脑如何激活windows

教你一段代码激活计算机系统

如何激活Windows server服务器

会员业务基于Cloud KMS的数据安全应用

开源工具专题-02 Confluence企业级wiki

开源项目激活脚本（Activation Script）安装与使用指南

图解支付-金融级密钥管理系统：构建支付系统的安全基石_kms框架

10款你一定不知道的实用工具！

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

（android高仿系列）今日头条 --新闻阅读器（三）完结、总结篇

微软Win8&Server2012各版本安装密匙序列号

【无标题】win11 kms 所请求的操作需要提升权限。页面不可用你的IT管理员已限制对此应用的某些区域的访问，并且你尝试访问的项目不可用。有关详细信息，请与IT支持人员联系。

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载