Scrapy框架的使用之Scrapy通用爬虫_为什么scrapy的parse_start

admin管理员组
文章数量:1531726

下面将介绍一些内置的的Processor。

1. Identity

Identity是最简单的Processor，不进行任何处理，直接返回原来的数据。

2. TakeFirst

TakeFirst返回列表的第一个非空值，类似extract_first()的功能，常用作Output Processor，如下所示：

from scrapy.loader.processors import TakeFirst
processor = TakeFirst()
print(processor([‘’, 1, 2, 3]))

输出结果如下所示：

经过此Processor处理后的结果返回了第一个不为空的值。

3. Join

Join方法相当于字符串的join()方法，可以把列表拼合成字符串，字符串默认使用空格分隔，如下所示：

from scrapy.loader.processors import Join
processor = Join()
print(processor([‘one’, ‘two’, ‘three’]))

输出结果如下所示：

one two three

它也可以通过参数更改默认的分隔符，例如改成逗号：

from scrapy.loader.processors import Join
processor = Join(‘,’)
print(processor([‘one’, ‘two’, ‘three’]))

运行结果如下所示：

one,two,three

4. Compose

Compose是用给定的多个函数的组合而构造的Processor，每个输入值被传递到第一个函数，其输出再传递到第二个函数，依次类推，直到最后一个函数返回整个处理器的输出，如下所示：

from scrapy.loader.processors import Compose
processor = Compose(str.upper, lambda s: s.strip())
print(processor(’ hello world’))

运行结果如下所示：

HELLO WORLD

在这里我们构造了一个Compose Processor，传入一个开头带有空格的字符串。Compose Processor的参数有两个：第一个是str.upper，它可以将字母全部转为大写；第二个是一个匿名函数，它调用strip()方法去除头尾空白字符。Compose会顺次调用两个参数，最后返回结果的字符串全部转化为大写并且去除了开头的空格。

5. MapCompose

与Compose类似，MapCompose可以迭代处理一个列表输入值，如下所示：

from scrapy.loader.processors import MapCompose
processor = MapCompose(str.upper, lambda s: s.strip())
print(processor([‘Hello’, ‘World’, ‘Python’]))

运行结果如下所示：

[‘HELLO’, ‘WORLD’, ‘PYTHON’]

被处理的内容是一个可迭代对象，MapCompose会将该对象遍历然后依次处理。

6. SelectJmes

SelectJmes可以查询JSON，传入Key，返回查询所得的Value。不过需要先安装Jmespath库才可以使用它，命令如下所示：

pip3 install jmespath

安装好Jmespath之后，便可以使用这个Processor了，如下所示：

from scrapy.loader.processors import SelectJmes
proc = SelectJmes(‘foo’)
processor = SelectJmes(‘foo’)
print(processor({‘foo’: ‘bar’}))

运行结果如下所示：

bar

以上内容便是一些常用的Processor，在本节的实例中我们会使用Processor来进行数据的处理。

接下来，我们用一个实例来了解Item Loader的用法。

三、本节目标

我们以中华网科技类新闻为例，来了解CrawlSpider和Item Loader的用法，再提取其可配置信息实现可配置化。官网链接为：http://tech.china/。我们需要爬取它的科技类新闻内容，链接为：http://tech.china/articles/，页面如下图所示。

我们要抓取新闻列表中的所有分页的新闻详情，包括标题、正文、时间、来源等信息。

四、新建项目

首先新建一个Scrapy项目，名为scrapyuniversal，如下所示：

scrapy startproject scrapyuniversal

创建一个CrawlSpider，需要先制定一个模板。我们可以先看看有哪些可用模板，命令如下所示：

scrapy genspider -l

运行结果如下所示：

Available templates: basic crawl csvfeed xmlfeed

之前创建Spider的时候，我们默认使用了第一个模板basic。这次要创建CrawlSpider，就需要使用第二个模板crawl，创建命令如下所示：

scrapy genspider -t crawl china tech.china

运行之后便会生成一个CrawlSpider，其内容如下所示：

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class ChinaSpider(CrawlSpider):
name = ‘china’
allowed_domains = [‘tech.china’]
start_urls = [‘http://tech.china/’]

rules = (
Rule(LinkExtractor(allow=r’Items/'), callback=‘parse_item’, follow=True),
)

def parse_item(self, response):
i = {}
#i[‘domain_id’] = response.xpath(‘//input[@id=“sid”]/@value’).extract()
#i[‘name’] = response.xpath(‘//div[@id=“name”]’).extract()
#i[‘description’] = response.xpath(‘//div[@id=“description”]’).extract()
return i

这次生成的Spider内容多了一个rules属性的定义。Rule的第一个参数是LinkExtractor，就是上文所说的LxmlLinkExtractor，只是名称不同。同时，默认的回调函数也不再是parse，而是parse_item。

五、定义Rule

要实现新闻的爬取，我们需要做的就是定义好Rule，然后实现解析函数。下面我们就来一步步实现这个过程。

首先将start_urls修改为起始链接，代码如下所示：

start_urls = [‘http://tech.china/articles/’]

之后，Spider爬取start_urls里面的每一个链接。所以这里第一个爬取的页面就是我们刚才所定义的链接。得到Response之后，Spider就会根据每一个Rule来提取这个页面内的超链接，去生成进一步的Request。接下来，我们就需要定义Rule来指定提取哪些链接。

当前页面如下图所示。

这是新闻的列表页，下一步自然就是将列表中的每条新闻详情的链接提取出来。这里直接指定这些链接所在区域即可。查看源代码，所有链接都在ID为left_side的节点内，具体来说是它内部的class为con_item的节点，如下图所示。

此处我们可以用LinkExtractor的restrict_xpaths属性来指定，之后Spider就会从这个区域提取所有的超链接并生成Request。但是，每篇文章的导航中可能还有一些其他的超链接标签，我们只想把需要的新闻链接提取出来。真正的新闻链接路径都是以article开头的，我们用一个正则表达式将其匹配出来再赋值给allow参数即可。另外，这些链接对应的页面其实就是对应的新闻详情页，而我们需要解析的就是新闻的详情信息，所以此处还需要指定一个回调函数callback。

到现在我们就可以构造出一个Rule了，代码如下所示：

Rule(LinkExtractor(allow=‘article/.*.html’, restrict_xpaths=‘//div[@id=“left_side”]//div[@class=“con_item”]’), callback=‘parse_item’)

接下来，我们还要让当前页面实现分页功能，所以还需要提取下一页的链接。分析网页源码之后可以发现下一页链接是在ID为pageStyle的节点内，如下图所示。

但是，下一页节点和其他分页链接区分度不高，要取出此链接我们可以直接用XPath的文本匹配方式，所以这里我们直接用LinkExtractor的restrict_xpaths属性来指定提取的链接即可。另外，我们不需要像新闻详情页一样去提取此分页链接对应的页面详情信息，也就是不需要生成Item，所以不需要加callback参数。另外这下一页的页面如果请求成功了就需要继续像上述情况一样分析，所以它还需要加一个follow参数为True，代表继续跟进匹配分析。其实，follow参数也可以不加，因为当callback为空的时候，follow默认为True。此处Rule定义为如下所示：

Rule(LinkExtractor(restrict_xpaths=‘//div[@id=“pageStyle”]//a[contains(., “下一页”)]’))

所以现在rules就变成了：

rules = (
Rule(LinkExtractor(allow=‘article/.*.html’, restrict_xpaths=‘//div[@id=“left_side”]//div[@class=“con_item”]’), callback=‘parse_item’),
Rule(LinkExtractor(restrict_xpaths=‘//div[@id=“pageStyle”]//a[contains(., “下一页”)]’))
)

接着我们运行代码，命令如下所示：

scrapy crawl china

现在已经实现页面的翻页和详情页的抓取了，我们仅仅通过定义了两个Rule即实现了这样的功能，运行效果如下图所示。

六、解析页面

接下来我们需要做的就是解析页面内容了，将标题、发布时间、正文、来源提取出来即可。首先定义一个Item，如下所示：

from scrapy import Field, Item

class NewsItem(Item):
title = Field()
url = Field()
text = Field()
datetime = Field()
source = Field()
website = Field()

这里的字段分别指新闻标题、链接、正文、发布时间、来源、站点名称，其中站点名称直接赋值为中华网。因为既然是通用爬虫，肯定还有很多爬虫也来爬取同样结构的其他站点的新闻内容，所以需要一个字段来区分一下站点名称。

详情页的预览图如下图所示。

如果像之前一样提取内容，就直接调用response变量的xpath()、css()等方法即可。这里parse_item()方法的实现如下所示：

def parse_item(self, response):
item = NewsItem()
item[‘title’] = response.xpath(‘//h1[@id=“chan_newsTitle”]/text()’).extract_first()
item[‘url’] = response.url
item[‘text’] = ‘’.join(response.xpath(‘//div[@id=“chan_newsDetail”]//text()’).extract()).strip()
item[‘datetime’] = response.xpath(‘//div[@id=“chan_newsInfo”]/text()’).re_first(‘(\d±\d±\d+\s\d+:\d+:\d+)’)
item[‘source’] = response.xpath(‘//div[@id=“chan_newsInfo”]/text()’).re_first(‘来源：(.*)’).strip()
item[‘website’] = ‘中华网’
yield item

这样我们就把每条新闻的信息提取形成了一个NewsItem对象。

这时实际上我们就已经完成了Item的提取。再运行一下Spider，如下所示：

scrapy crawl china

输出内容如下图所示。

现在我们就可以成功将每条新闻的信息提取出来。

不过我们发现这种提取方式非常不规整。下面我们再用Item Loader，通过add_xpath()、add_css()、add_value()等方式实现配置化提取。我们可以改写parse_item()，如下所示：

def parse_item(self, response):
loader = ChinaLoader(item=NewsItem(), response=response)
loader.add_xpath(‘title’, ‘//h1[@id=“chan_newsTitle”]/text()’)
loader.add_value(‘url’, response.url)
loader.add_xpath(‘text’, ‘//div[@id=“chan_newsDetail”]//text()’)
loader.add_xpath(‘datetime’, ‘//div[@id=“chan_newsInfo”]/text()’, re=‘(\d±\d±\d+\s\d+:\d+:\d+)’)
loader.add_xpath(‘source’, ‘//div[@id=“chan_newsInfo”]/text()’, re=‘来源：(.*)’)
loader.add_value(‘website’, ‘中华网’)
yield loader.load_item()

这里我们定义了一个ItemLoader的子类，名为ChinaLoader，其实现如下所示：

from scrapy.loader import ItemLoader
from scrapy.loader.processors import TakeFirst, Join, Compose

class NewsLoader(ItemLoader):
default_output_processor = TakeFirst()

class ChinaLoader(NewsLoader):
text_out = Compose(Join(), lambda s: s.strip())
source_out = Compose(Join(), lambda s: s.strip())

ChinaLoader继承了NewsLoader类，其内定义了一个通用的Out Processor为TakeFirst，这相当于之前所定义的extract_first()方法的功能。我们在ChinaLoader中定义了text_out和source_out字段。这里使用了一个Compose Processor，它有两个参数：第一个参数Join也是一个Processor，它可以把列表拼合成一个字符串；第二个参数是一个匿名函数，可以将字符串的头尾空白字符去掉。经过这一系列处理之后，我们就将列表形式的提取结果转化为去重头尾空白字符的字符串。

代码重新运行，提取效果是完全一样的。

至此，我们已经实现了爬虫的半通用化配置。

七、通用配置抽取

为什么现在只做到了半通用化？如果我们需要扩展其他站点，仍然需要创建一个新的CrawlSpider，定义这个站点的Rule，单独实现parse_item()方法。还有很多代码是重复的，如CrawlSpider的变量、方法名几乎都是一样的。那么我们可不可以把多个类似的几个爬虫的代码共用，把完全不相同的地方抽离出来，做成可配置文件呢？

当然可以。那我们可以抽离出哪些部分？所有的变量都可以抽取，如name、allowed_domains、start_urls、rules等。这些变量在CrawlSpider初始化的时候赋值即可。我们就可以新建一个通用的Spider来实现这个功能，命令如下所示：

scrapy genspider -t crawl universal universal

这个全新的Spider名为universal。接下来，我们将刚才所写的Spider内的属性抽离出来配置成一个JSON，命名为china.json，放到configs文件夹内，和spiders文件夹并列，代码如下所示：

{
“spider”: “universal”,
“website”: “中华网科技”,
“type”: “新闻”,
“index”: “http://tech.china/”,
“settings”: {
“USER_AGENT”: “Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36”
},
“start_urls”: [
“http://tech.china/articles/”
],
“allowed_domains”: [
“tech.china”
],
“rules”: “china”
}

第一个字段spider即Spider的名称，在这里是universal。后面是站点的描述，比如站点名称、类型、首页等。随后的settings是该Spider特有的settings配置，如果要覆盖全局项目，settings.py内的配置可以单独为其配置。随后是Spider的一些属性，如start_urls、allowed_domains、rules等。rules也可以单独定义成一个rules.py文件，做成配置文件，实现Rule的分离，如下所示：

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import Rule

rules = {
‘china’: (
Rule(LinkExtractor(allow=‘article/.*.html’, restrict_xpaths=‘//div[@id=“left_side”]//div[@class=“con_item”]’),
callback=‘parse_item’),
Rule(LinkExtractor(restrict_xpaths=‘//div[@id=“pageStyle”]//a[contains(., “下一页”)]’))
)
}

这样我们将基本的配置抽取出来。如果要启动爬虫，只需要从该配置文件中读取然后动态加载到Spider中即可。所以我们需要定义一个读取该JSON文件的方法，如下所示：

from os.path import realpath, dirname
import json
def get_config(name):
path = dirname(realpath(__file__)) + ‘/configs/’ + name + ‘.json’
with open(path, ‘r’, encoding=‘utf-8’) as f:
return json.loads(f.read())

定义了get_config()方法之后，我们只需要向其传入JSON配置文件的名称即可获取此JSON配置信息。随后我们定义入口文件run.py，把它放在项目根目录下，它的作用是启动Spider，如下所示：

import sys
from scrapy.utils.project import get_project_settings
from scrapyuniversal.spiders.universal import UniversalSpider
from scrapyuniversal.utils import get_config

做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。

别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。

我先来介绍一下这些东西怎么用，文末抱走。

（1）Python所有方向的学习路线（新版）

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

最近我才对这些路线做了一下新的更新，知识体系更全面了。

（2）Python学习视频

包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门来说是没问题的，学完这些之后，你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

（3）100多个练手项目

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了，只是里面的项目比较多，水平也是参差不齐，大家可以挑自己能做的项目去练练。

（4）200多本电子书

这些年我也收藏了很多电子书，大概200多本，有时候带实体书不方便的话，我就会去打开电子书看看，书籍可不一定比视频教程差，尤其是权威的技术书籍。

基本上主流的和经典的都有，这里我就不放图了，版权问题，个人看看是没有问题的。

（5）Python知识点汇总

知识点汇总有点像学习路线，但与学习路线不同的点就在于，知识点汇总更为细致，里面包含了对具体知识点的简单说明，而我们的学习路线则更为抽象和简单，只是为了方便大家只是某个领域你应该学习哪些技术栈。

（6）其他资料

还有其他的一些东西，比如说我自己出的Python入门图文类教程，没有电脑的时候用手机也可以学习知识，学会了理论之后再去敲代码实践验证，还有Python中文版的库资料、MySQL和HTML标签大全等等，这些都是可以送给粉丝们的东西。

这些都不是什么非常值钱的东西，但对于没有资源或者资源不是很好的学习者来说确实很不错，你要是用得到的话都可以直接抱走，关注过我的人都知道，这些都是可以拿到的。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里无偿获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

本文标签：爬虫框架 scrapy parse parsestarturl

版权声明：本文标题：Scrapy框架的使用之Scrapy通用爬虫_为什么scrapy的parse_start_url和parse 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1724843818a993559.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

Scrapy框架的使用之Scrapy通用爬虫_为什么scrapy的parse_start_url和parse

1. Identity

2. TakeFirst

3. Join

4. Compose

5. MapCompose

6. SelectJmes

三、本节目标

四、新建项目

五、定义Rule

六、解析页面

七、通用配置抽取

更多相关文章

浏览器攻击框架BeEF简介

10 分钟上手Web Scraper，从此爬虫不求人

常用前端UI框架

使用Python和BeautifulSoup进行网页爬虫与数据采集

面试框架题整理

python爬虫爬取华硕笔记本信息

一个简单的爬取腾讯视频的网页爬虫

Python爬虫-爬取腾讯小视频

爬虫之Fiddler抓包腾讯视频

9个基于Java的搜索引擎框架

MALib:基于群体的多智能体强化学习并行框架

Python 中 selenium 设置参数，不打开可视化页面，后台执行爬虫程序

前端人脸识别框架tracking.js，解决ios浏览器调摄像头黑屏的问题，兼容pc、安卓、ios。

python爬虫（上）--请求——关于模拟浏览器方法

bootstrap框架写手机端app模板也很漂亮

一个app服务端后台框架源码分享（源码已可以下载）

beego框架：static目录下的apk文件浏览器下载使用正常，手机浏览器下载无法解析安装

Chrome扩展框架-浏览器插件安装方法

爬虫中chrome浏览器使用方法介绍

Python编程零基础如何逆袭成为爬虫实战高手之《WIFI破解》（甩万能钥匙十条街）爆赞爆赞~

发表评论

推荐文章

ubuntu commitizen安装配置、CHANGELOG自动生成

android wifi无法连接手机号码,安卓手机无法使用WiFi连接ApowerMirror解决方法

万能五笔输入法弹窗_万能五笔输入法的广告怎么关闭

2021.3.1idea(jdk+tomcat+maven)安装与配置

dell电脑如何安装ubuntu系统_UbuntuWIN10双系统安装教程 | Dell 中国

热门文章

基于混合决策规则的不确定Unit Commitment的完全自适应分布鲁棒

redmine 腾讯企业邮箱配置

Flask项目实战——4—(邮箱的验证码发送、Redis数据库存储验证码、邮箱修改功能、权限管理)

5e怎么绑定一键跳投_企业邮箱如何绑定微信？微信怎么添加邮箱？

React Native是初创企业的正确选择

cookie存放位置(Win10)

centOS7安装搜狗拼音输入法

android对接单片机wifi模块

移动硬盘损坏无法读取？专业恢复策略全解析

将移动硬盘变为与系统硬盘等同的存在

最新文章

WIN7如何禁止IE浏览器自动升级

xp-win7远程桌面的设置（安装win7终端服务器）

XPWIN7系统中删除残留托盘图标的方法

win7招不到网络计算机,用一招提高家里的网速 Win7网络双工模式设置教程

Oracle数据库从Window XP迁移到Win7的诡异问题

网络里找不到工作组的计算机,win7系统看不到工作组计算机怎么办？win7系统看不到工作组计算机解决方法...

借win11 WSA升级12l，水一贴升级方法和说说要不要升级win11。

如何在win7下升级vs2008

win7字体安装_超强大PDF编辑软件 | Adobe Acrobat DC安装教程

xp新电脑win7重装硬盘SATA模式AHCI及ACPI电源管理zz150118

win7虚拟机时间不能修改怎么办

Win7 64位操作系统中安装Microsoft Access Engine

java开发用win7好还是win10_Win10和Win7各有优点，大家不要再纠结哪个系统更好了！...

win7蓝屏_win7电脑蓝屏自动重启怎么办，卸载程序，电脑瞬间复活

win7添加一个计算机图标,Win7系统任务栏处添加“计算机”图标的方法

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载