动态渲染页面的爬取（项目案例：爬取今日头条热点新闻）|电子爱好者

admin管理员组
文章数量:1660864

声明：本文内容来自张涛的《从零开始学Scrapy网络爬虫》

在使用Selenium的过程中，我们驱动的都是Chrome、FireFox等有界面的浏览器，效率极低。对爬虫来说，只要能高效地获取数据，有无界面根本无关紧要，因此本项目选择使用无界面的浏览器PhantomJS。

1.准备工作

项目开始强，要保证必要的环境已经成功搭建。主要有Selenium和PhantomJS。
（1）使用pip安装Selenium。

pip install selenium

（2）下载PhantomJS驱动并配置环境。

2.创建Scrapy项目

创建一个名为toutiao的scrapy项目。

 scrapy startproject toutiao

3.使用Item封装数据

打开项目toutiao中的items.py源文件，添加新闻字段，实现代码如下：

import scrapy


class ToutiaoItem(scrapy.Item):
    title = scrapy.Field() # 标题
    source = scrapy.Field() # 来源
    comment = scrapy.Field() # 评论数

4.创建Spider源文件及Spider类

在Spider文件夹中新建toutiao_spier.py文件。在toutiao_spider.py中创建爬虫类ToutiaoSpider,实现代码如下：

from scrapy import Request
import sys
sys.path.append('D:\\pythonProject\\scrapy\\toutiao')
from scrapy.spiders import Spider

from toutiao.items import ToutiaoItem # 导入Item模块
from selenium import webdriver # 导入浏览器引擎模块

class ToutiaoSpider(Spider):
    # 定义爬虫名称
    name = 'toutiao'
    # 构造函数
    def __init__(self):
        # 生成PhantomJS的对象driver
        self.driver = webdriver.PhantomJS()

    # 获取初始的Request
    def start_requests(self):
        url = "https://www.toutiao/?channel=hot&source=ch" # 生成请求对象，设置url

        yield Request(url)

    # 数据解析方法
    def parse(self,response):
    	pass

首先，导入必要的模块；接着，定义ToutiaoSpider类，类中定义了3个方法：
（1）init():构建函数中生成了phantomjs的对象driver。
（2）start_requests():生成初始Request对象，虽然会被拦截，还是需要这一步。
（3）parse()：数据解析功能暂不实现。

5.实现下载器中间件

在新建项目时，自动生成了一个middlewares.py的源文件，叫做中间件。中间件包含爬虫中间件和下载器中间件，分别对应源文件中ToutiaoSpiderMiddleware 类和 ToutiaoDownloaderMiddleware 类。下面就在ToutiaoDownloaderMiddleware类中实现使用Selenium请求和下载页面。
以下为ToutiaoDownloaderMiddleware类实现的代码：

import time # 时间模块
from scrapy.http import HtmlResponse # html响应模块
from selenium.webdrivermon.by import By # By模块
from selenium.webdriver.support.wait import WebDriverWait # 等待模块
from selenium.webdriver.support import expected_conditions as EC # 预期条件模块

# 异常模块
from seleniummon.exceptions import TimeoutException,NoSuchElementException
class ToutiaoDownloaderMiddleware(object):
    def process_request(self,request,spider):
        # 判断name是toutiao的爬虫
        if spider.name == "toutiao":
            # 打开URL对应的页面
            spider.driver.get(request.url)

            try:
                # 设置显式等待，最长等待5秒
                wait = WebDriverWait(spider.driver,5)
                # 等待新闻列表容器加载完成
                wait.until(EC.presence_of_element_located((By.XPATH,"//div[@class='wcommonFeed']")))
                # 使用JS的scrollTo方法实现将页面向下滚动到中间
                spider.driver.execute_script('window.scrollTo(0,document.body.scrollHeight/2)')
                for i in range(10):
                    time.sleep(5)
                    # 使用JS的scrollTo方法将页面滚动到最底端
                    spider.driver.execute_script('window.scrollTo(0,document.body.scrollHeignt)')

                # 获取加载完成的页面源代码
                origin_code = spider.driver.page_source
                # 将源代码构造成一个Response对象并返回
                res = HtmlResponse(url=request.url,encodings="utf8",body=origin_code,request=request)
                return res
            except TimeoutException: # 超时
                print("time out")
            except NoSuchElementException: # 无此元素
                print("no such element")
        return None

首先导入必要的模块，有时间模块、响应模块、By模块、等待模块、预期条件模块和异常模块。
ToutiaoDownloaderMiddleware 类中的process_request(self,request,spider)方法专门用于处理从爬虫发送过来的HTTP请求，共有两个参数：参数request传递HTTP请求对象；参数spider传递爬虫对象（一个项目可以有多个爬虫）。所有的功能都是在该方法中实现。
在方法process_request()中，首先，通过spider.name == toutiao来确定要处理的请求是从名为toutiao的爬虫处传递的；然后，通过driver的get()方法实现使用Selenium获取指定的URL页面，并通过WebDriverWait()方法设置最长等待时间，等待新闻列表的div容器加载完成；接着，使用driver的execute_script()方法执行JS命令，将页面滚动到底部，无法加载更多内容）；再每隔5秒钟，将页面滚动到最底部（重复10次），这样页面就会不断加载更多新闻内容；最后，通过driver.page_source()方法获取加载完整的页面文档构造一个Response对象，返回给爬虫。

6.开启下载器中间件

下载器中间件默认关闭，需要手动开启。在settings.py中将对应的注释放开即可，代码如下：

7.解析数据（我写的是完整代码）

下载器中间件构造一个Response对象后，将其发送给ToutiaoSpider爬虫类的parse()方法，实现数据的解析。再回到ToutiaoSpider类，完成parse()方法。parse()方法的实现代码如下：

from scrapy import Request
import sys
sys.path.append('D:\\pythonProject\\scrapy\\toutiao')
from scrapy.spiders import Spider

from toutiao.items import ToutiaoItem # 导入Item模块
from selenium import webdriver # 导入浏览器引擎模块

class ToutiaoSpider(Spider):
    # 定义爬虫名称
    name = 'toutiao'
    # 构造函数
    def __init__(self):
        # 生成PhantomJS的对象driver
        self.driver = webdriver.PhantomJS()

    # 获取初始的Request
    def start_requests(self):
        url = "https://www.toutiao/?channel=hot&source=ch" # 生成请求对象，设置url

        yield Request(url)

    # 数据解析方法
    def parse(self,response):
        item = ToutiaoItem()
        list_selector = response.xpath("//div[@class='wcommonFeed']/u1/li")
        for li in  list_selector:
            try:
                # 标题
                title = li.xpath(".//a[@class='link title']/text()").extract()
                # 去除空格
                title = title[0].strip(" ")
                # 来源
                source = li.xpath(".//a[@class='lbtn source']/text()").extract()
                # 去除点号和全角空格
                source = source[0].strip(". ").strip(" ")
                # 评论数
                comment = li.xpath(".//a[@class='lbtn comment']/text()")
                # 去除文字及空格
                comment = comment.re("(.*?)评论")[0]
                comment = "".join(comment.split()) # 去除空格：&nbsp
                item["title"] = title # 标题
                item["source"] = source # 来源
                item["comment"] = comment # 评论数
                yield item
            except:
                continue

在Chrome浏览器的“开发者工具”中的Element选项卡中，显示的就是加载完全的HTML代码（包括AJAX加载的数据），如下图所示。通过对HTML代码的分析，就能很容易地实现数据解析了。

我一直没找到div[@class=‘wcommonFeed’]，希望大佬们可以看看，这个属性是在哪里的？

8.运行爬虫

通过命令运行爬虫，将数据保存于toutiao.csv文件中。

scrapy crawl toutiao -o toutiao.csv

第一次运行，出现以下报错信息
解决措施，详见https://blog.csdn/u010358168/article/details/79749149
再次运行,虽然没有报错，但是得到仍然是空的csv文件，按照书上建议（1）
仍然是没有数据结果，希望发现问题所在的大佬解答哈

本文标签：头条热点新闻案例页面今日

版权声明：本文标题：动态渲染页面的爬取（项目案例：爬取今日头条热点新闻）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1729881527a1215979.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

html头条新闻样式,请问今日头条图片频道布局样式如何实现的？

3小时前

Title *{ margin: 0; padding: 0; } ul,li{ list-style: none; } .middle { width: 136px; height: 136px; } .right { float: ri

仿头条新闻嵌入富文本编辑器

3小时前

首页首页中有分页查询，模糊查询，增加，修改，删除，查看1和查看2，列表按钮添加页面添加页面中有对

Python---分页爬取今日头条标题

3小时前

python分页爬取今日头条标题要爬取的内容（分页爬取今日头条中77事件的所有文章标题） 爬取结果展示（只展示出了部分） #工具&#xff1

今日头条 mysql_今日头条的核心架构解析

3小时前

5亿注册用户其中：2014年5月1.5亿，2015年5月3亿，2016年5月份为5亿。几乎为成倍增长。日活4800万用户 2014年为1000万日活&#xff0c

推荐开源项目：react-toutiao - React 实现的今日头条

3小时前

推荐开源项目：react-toutiao - React 实现的今日头条去发现同类优质开源项目:https:gitcode 1. 项目介绍 react-toutiao 是一个基于 Facebook 的 R

爬取今日头条新闻

3小时前

转载：：https:blog.csdnweixin_39416561articledetails84672104

GitHub：今日头条机器人

3小时前

hello，小伙伴们大家好，今天给大家介绍的开源项目是：TTBot，这个开源项目是使用今日头条web版API实现的头条机器人，涵盖

python爬取今日头条手机app广告_今日头条App广告采集器的实现

3小时前

应客户需求，要对今日头条App内出现的广告商品进行提取，获取商品名称、价格区间、当前销量、卖家数据等信息。之前他们都是通过人工手动去提取的，效率很低，而且容易遗漏。现在需要通过程序来自动化采集以提高效率。今日头条App内两种类型的广告：一

头条限流是什么原因_今日头条为什么会被限流今日头条封禁有期限吗

3小时前

头条号突然被限流了是什么原因？ 我不在乎这个！有些人会对他们写的东西感兴趣，并会继续努力工作。没人看到，自己的水平太差了，限制在极

Markdown转换成公众号、知乎、今日头条格式，已开源

3小时前

文颜本项目的起源是我平常使用markdown写文章，再使用hugo生成静态页面发布到我的博客。但当我想把文章发布到诸如“公众号”、“知乎”、“今日头条”等平台时，发现需要针对每个平台进行格式转

仿今日头条小程序搭建

3小时前

首先我们要明确小程序需要哪几种文件。微信小程序中就四种类型的文件： js ---------- JavaScrip文件json -------- 项目配置文件，负责窗口颜色等等wxml

python 爬取今日头条热点新闻

3小时前

嗯，今天就让我们来一起爬爬今日头条的热点新闻吧！ 今日头条地址：https:www.toutiaochnews_hot 在浏览器中打开今日头条的链接&#

今日头条接口

3小时前

推荐:http:ic.snssdk2articlev25stream?count20&min_behot_time1504621638&bd_latitude4.9E-324&bd_longitude4

揭秘！今日头条爆款文章打造秘诀：低粉作者如何逆袭，成为流量王者？一文带你掌握！

3小时前

大家好，我是网创有方的站长，今天特地对某头条作者的优质文章内容做了下分析。欢迎各位共同讨论，如果有什么想法的可以评论区留言或者私信讨论。下面开始咱们的正题&#xff1

（android高仿系列）今日头条 --新闻阅读器（三）完结、总结篇

3小时前

从写第一篇今日头条高仿系列开始，到现在已经过去了1个多月了，其实大体都做好了，就是迟迟没有放出来，因为我觉得，做这个东西也是有个过

playwrite今日头条自动发帖

3小时前

目的大家好，我是watchpoints ，一个只为自己打工程序员， watchpoints是我github用户名 ，也是我的wechat 用户名&am

vue仿今日头条_微信小程序仿今日头条导航栏滚动解析

3小时前

项目需要，做一个和今日头条一样的导航栏，可以横行滚动，幸好再weui里面看到了类似的例子地址：https:weui.shanliwawa.top

命令行版今日头条——上班“摸鱼”的好帮手

3小时前

简介上班无聊怎么办？想刷新闻怎么办？怕被发现怎么办？ 命令行版今日头条帮你忙，摸鱼神器~ 喜欢请帮忙点下star 项目说明项目地址功能&a

信创（麒麟）操作系统选型适配及实施经验（结合案例详细分享）

1小时前

【摘要】企业在推进国产化过程中势必要选择一款主流、稳定、安全的服务器操作系统产品作为系统软件，而在产品投入实际生产环境前，需要对上游常用的软硬件适配情况有一定了解。本文主要介绍银河麒麟高级服务器操作系统V10（后续简称麒麟V10）常用软件适

微信内打开的网页不能下载APP，微信无法打开浏览器访问指定页面的解决方案

1小时前

通过微信的扫一扫去下载，会出现白屏的情况，可能是因为安全性的考虑或者其他什么原因，目前已经无法通过微信的扫一扫去下载apk了。根据网友们提供的思路，本文整理了三种方案。 1、申请腾讯开放平台开发者具体流程可以去访问http:op

电子爱好者 - 最新技术资讯及电子产品介绍！

动态渲染页面的爬取（项目案例：爬取今日头条热点新闻）

声明：本文内容来自 张涛的《从零开始学Scrapy网络爬虫》

1.准备工作

2.创建Scrapy项目

3.使用Item封装数据

4.创建Spider源文件及Spider类

5.实现下载器中间件

6.开启下载器中间件

7.解析数据（我写的是完整代码）

我一直没找到div[@class=‘wcommonFeed’]，希望大佬们可以看看，这个属性是在哪里的？

8.运行爬虫

更多相关文章

html头条新闻样式,请问今日头条图片频道布局样式如何实现的？

仿头条新闻嵌入富文本编辑器

Python---分页爬取今日头条标题

今日头条 mysql_今日头条的核心架构解析

推荐开源项目：react-toutiao - React 实现的今日头条

爬取今日头条新闻

GitHub：今日头条机器人

python爬取今日头条手机app广告_今日头条App广告采集器的实现

头条限流是什么原因_今日头条为什么会被限流 今日头条封禁有期限吗

Markdown转换成公众号、知乎、今日头条格式，已开源

仿今日头条小程序搭建

python 爬取今日头条热点新闻

今日头条接口

揭秘！今日头条爆款文章打造秘诀：低粉作者如何逆袭，成为流量王者？一文带你掌握！

（android高仿系列）今日头条 --新闻阅读器 （三） 完结 、总结 篇

playwrite今日头条自动发帖

vue仿今日头条_微信小程序仿今日头条导航栏滚动解析

命令行版今日头条——上班“摸鱼”的好帮手

信创（麒麟）操作系统选型适配及实施经验（结合案例详细分享）

微信内打开的网页不能下载APP，微信无法打开浏览器访问指定页面的解决方案

发表评论

推荐文章

HTML+CSS练习——实现京东登录静态页面

Windows 8走向失败的5个原因

delphi还有人用吗?delphi过时了吗?为什么还有人使用Delphi开发软件？一文说清Delphi的领先一个时代的开发工具DNA

我的去 Google 化的安卓之旅

推荐文章：深度学习优化神器——pytorch-estimate-flops

热门文章

SRE-网站可靠性工程

第三方登录（QQ登录）开发流程详解

有道英语在线翻译器 v6.3.66 官方版​

常用html5阅览器,最好的网页浏览器排行，速度最快的四大浏览器分享

工程伦理（2021春）课后习题全部答案

更多打印驱动适配！deepin 打印管理器新版发布

USB原理：从零基础入门到放弃

Figma导出源文件的方法，用这个方法快速转换其它格式

Conservative Q-Learning(CQL)保守Q学习(三)-CQL在DDPG下的代码实现和实际应用效果

python今日头条新闻爬虫_头条爬虫最新资讯

最新文章

关于 微软商店无法加载页面 显示错误代码0x80131500的解决办法

微软出品可以免费使用的 monitor 应用程序验证器：AppVerifier

【html代码】Windows网页版界面源码

mysql57安装windows -windows版mysql57安装 -mysql自定义安装路径 -mysql57官网下载 -mysql57修改密码

下载:微软在TechNetMSDN发布的Windows 7 RTM

微软远程桌面，微软远程桌面连接可以卸载吗

微软远程桌面优化

服务器内网怎么更新微软补丁,架WSUS服务器 内网自动打补丁

iis7.0官方下载 IIS 7.0(微软Web服务器组件IIS 7.0) 官方(windows 2003,XP,2000)

使用Windows 7 USBDVD Download Tool制作WIN7系统安装盘

【Intel官方】Windows7系统加载USB3.0驱动教程

一些微软编程工具或SDK的官方下载地址

Windows 上可以安装 Apple Music 吗?

微软服务器更新通知,产品技术-微软安全公告 MS17-010 Microsoft Windows SMB 服务器安全更新 (4013389)-新华三集团-H3C...

Windows无法为计算机分级,10个Windows7常见问题解决方案

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

声明：本文内容来自张涛的《从零开始学Scrapy网络爬虫》

头条限流是什么原因_今日头条为什么会被限流今日头条封禁有期限吗

（android高仿系列）今日头条 --新闻阅读器（三）完结、总结篇

有道英语在线翻译器 v6.3.66 官方版

关于微软商店无法加载页面显示错误代码0x80131500的解决办法

服务器内网怎么更新微软补丁,架WSUS服务器内网自动打补丁

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载