【Python】【爬虫】爬取网易、腾讯、新浪、搜狐新闻到本地|电子爱好者

admin管理员组
文章数量:1531470

这个实验主要爬取新闻网站首页的新闻内容保存到本地，爬取内容有标题、时间、来源、评论数和正文。
工具：python 3.6 谷歌浏览器
爬取过程：
###一、安装库：urllib、requests、BeautifulSoup
1、urllib库：Urllib是python内置的HTTP请求库。用这个库可以用python请求网页获取信息。
主要用到的函数：

	   data = urllib.request.urlopen(qurl).read() 
	    #qurl为网页的网址，利用这个函数可以获取该网页的内容data

2、requests库：requests是python实现的简单易用的HTTP库，使用起来比urllib简洁很多。这个实验我两个库都用了，作用类似。

	data = requests.get(url).text

3、BeautifulSoup库
当我们通过上面两个库获得了网页的数据的时候，我们需要从数据中提取我们想要的，这时BeautifulSoup就派上了用场。BeautifulSoup可以为我们解析文档，抓取我们想要的新闻标题、正文内容等。
4、re 库
正则表达式的库，正则表达式大家都明白的。

###二、爬取新闻首页，得到所有要爬取新闻的链接

因为新闻首页首页只有新闻的标题，新闻的具体信息要点进标题链接进入另一个网页查看。所以我们首先要在新闻首页把所有要爬取新闻的链接保存到一个txt文件里。先上代码再解释。

def getQQurl(): #获取腾讯新闻首页的所有新闻链接
    url = "http://news.qq/"

    urldata = requests.get(url).text

    soup = BeautifulSoup(urldata, 'lxml')

    news_titles = soup.select("div.text > em.f14 > a.linkto")

    fo = open("D:/news/QQ链接.txt", "w+")  # 创建TXT文件保存首页所有链接

    # 对返回的列表进行遍历写入文件
    for n in news_titles:
        title = n.get_text()
        link = n.get("href")
        fo.writelines(link + "\n")
    fo.close()

函数的前两行代码前面已经解释了，就解释一下三四行代码吧。

soup = BeautifulSoup(wbdata, ‘lxml’) #解析获取的文件，解析器为lxml

news_titles = soup.select(“div.text > em.f14 > a.linkto”)
分析新闻网页源代码的时候我们可以发现，首页新闻的链接大多数在图片中的地方

由此我们可以利用soup.select（）把所有标签div.text > em.f14 > a.linkto对应的数据挑选出来，因此是一个列表。再用get(“herf”)把链接挑选出来，写在TXT文件里面。

一般新闻网站首页的新闻链接按板块不同在源代码中的标签也不同，挑选规则也不同。如果想挑选多个板块的新闻的话可以多写几种规则。

###三、根据链接文件依次爬取每个链接对应的新闻数据
当把所有新闻的链接写在一个文件后，我们剩下要做的就是循环读取每个链接，利用第二步得到链接类似的办法得到新闻的相关数据。
分析新闻的网页源代码我们可以发现，标题都放在title标签下，而正文内容都在p标签下，由此我们可以用
content = soup.select(‘p’) # 选择正文内容
title = soup.select(‘title’) # 选择标题将它们挑选出来，时间和来源等信息可以用类似的方法挑选。
当这些信息被挑选出来后，它们都是以列表的形式，所以我们要将它们依次写入文件，整体代码如下。

def getqqtext():
    qqf = open("D:/news/QQ链接.txt", "r")
    qqurl = qqf.readlines()  # 读取文件，得到一个链接列表
    i = 0

    # 遍历列表，请求网页，筛选出正文信息
    for qurl in qqurl:
        try:
            data = urllib.request.urlopen(qurl).read()
            data2 = data.decode("gbk", "ignore")

            soup = BeautifulSoup(data2, "html.parser")  # 从解析文件中通过select选择器定位指定的元素，返回一个列表

            content = soup.select('p')  # 选择正文内容
            title = soup.select('title')  # 选择标题
            time = soup.select('div.a_Info > span.a_time')
            author = soup.select('div.a_Info > span.a_source')

            # 将得到的网页正文写进本地文件
            if (len(time) != 0):

本文标签：爬虫腾讯网易新浪搜狐新闻

版权声明：本文标题：【Python】【爬虫】爬取网易、腾讯、新浪、搜狐新闻到本地内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1724852124a994018.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

【Python】【爬虫】爬取网易、腾讯、新浪、搜狐新闻到本地

更多相关文章

腾讯下载QLV文件装换MP4

python爬取腾讯vip_python爬取QQ音乐

C# 结合 JS 暴改腾讯 IM SDK Demo

腾讯推出移动端动画组件PAG，释放设计生产力!

”腾讯音视频服务”初次使用感想

Web播放器 TcPlayer——腾讯直播sdk的网页播放器

怎么把腾讯视频的qlv文件转成mp3格式 【已解决】

Android 即时音视频解决方案2——腾讯云

java调用腾讯会议api，开会录制问题

腾讯云 Finops Crane 开发者集训营 - 让云不再“钱”途无量

不用 qlv 格式转换成 mp4 - 优雅的下载腾讯视（mp4 格式）

爬虫与搜索引擎的区别pyhton爬虫结构

【腾讯云生态大会】腾讯云向量数据库

超硬核！腾讯运维岗面试必问11题，我说的，不信就来看看

腾讯免费企业邮箱服务器,怎样使用免费的腾讯企业邮箱

redmine 腾讯企业邮箱配置

python 爬虫 selenium 无头浏览器设置

从零开始学Python爬虫系列：写好的python文本如何自动运行？Windows自动开机并启动python

暴风影音CEO冯鑫称与腾讯不惜一战

腾讯wifi管家竟然盗取我家wifi密码惊讶！震惊！失望！

发表评论

推荐文章

科大讯飞版ChatGPT开放内测（文末附内测地址，亲测一秒通过审核）

英语基础知识： 并列结构

cmdgo: unsupported GOOSGOARCH pair jsamd64问题解决

暴风影音打开文件连接服务器失败,常见问题：解决暴风影音播放问题

Ubuntu 14.04 LTS 搜狗拼音输入法不能使用的情况

热门文章

Zcash中的Notes

Git Bash commit 无法提交，出现 Aborting commit due to empty commit message 错误提示

安装window7系统

无限注册谷歌Gmail邮箱账号的方法，可跳过手机验证

复习专栏之---设计模式（java）

计算机蓝屏故障一般在什么情况会发生,Win10出现蓝屏故障的原因以及解决方案...

Ubutu 12.04LTS 安装搜狗拼音输入法+搜狗皮肤 步骤详解

[ Linux配置 ]Ubuntu16.04 切换成中文包 以及安装 搜狗拼音输入法

希捷移动硬盘指示灯频闪，电脑无法识别

给U盘移动硬盘加密，防止借给别人的时候被查看

最新文章

外星人m18R2国行中文版原厂预装23H2原装Win11系统恢复带F12恢复重置

戴尔外星人全系列笔记本电脑原厂OEM系统下载安装

HP惠普暗影精灵7Plus笔记本OMEN 17.3英寸游戏本17-ck0000恢复原厂Windows11预装OEM系统

mac linux win三系统安装教程,macbookpro上安装三系统详解教程(macosxwindowslinuxubuntu).doc...

华硕原厂系统天选5Pro原厂Win11系统恢复安装过程方法

Dell戴尔笔记本电脑游匣G灵越Inspiron 成就Vostro 外星人Alienware系列 XPS原装Windows11系统出厂Win10系统

alienware Win8 系统安装

ASUS华硕ROG幻15冰刃4新锐_GX502LWS_GU502LWS,LXS,LW,LU,LI,LV工厂模式原厂Win10系统包下载 带Recovery恢复

win10用户和计算机,对于电脑工作者们，更喜欢用win7还是win10呢？

苹果笔记本装win7_m2 ngff无线网卡接口的笔记本电脑装苹果网卡

三星Samsung Galaxy Book S W767高通处理器笔记本电脑Win10WIN11 ARM系统中文版

thinpad E43系列WIN8装WIN7系统

Macbook换SSD硬盘 备份OS、Win10双系统 完全攻略

计算机屏幕出现条纹w7,电脑屏幕出现条纹,教您win10屏幕出现条纹的解决方法

uefi怎么安装系统 UEFI+GTP模式安装Win7Win8系统教程

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

怎么把腾讯视频的qlv文件转成mp3格式【已解决】

英语基础知识：并列结构

Ubutu 12.04LTS 安装搜狗拼音输入法+搜狗皮肤步骤详解

[ Linux配置 ]Ubuntu16.04 切换成中文包以及安装搜狗拼音输入法

ASUS华硕ROG幻15冰刃4新锐_GX502LWS_GU502LWS,LXS,LW,LU,LI,LV工厂模式原厂Win10系统包下载带Recovery恢复

Macbook换SSD硬盘备份OS、Win10双系统完全攻略

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载