彻底搞懂 Scrapy 的中间件|电子爱好者

admin管理员组
文章数量:1639184

彻底搞懂Scrapy的中间件(一)：https://wwwblogs/xieqiankun/p/know_middleware_of_scrapy_1.html
彻底搞懂Scrapy的中间件(二)：https://wwwblogs/xieqiankun/p/know_middleware_of_scrapy_2.html
彻底搞懂Scrapy的中间件(三)：https://wwwblogs/xieqiankun/p/know_middleware_of_scrapy_3.html

在 Scrapy 中捕获并处理各种异常

[ Scrapy使用技巧 ] 如何在 Scrapy 中捕获并处理各种异常：https://blog.csdn/sc_lilei/article/details/80702449

重写 scrapy 中间件之 RetryMiddleware：https://blog.csdn/qq_33854211/article/details/78535963

彻底搞懂Scrapy的中间件(一)

中间件是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改，从而开发出适应不同情况的爬虫。

“中间件”这个中文名字和前面章节讲到的“中间人”只有一字之差。它们做的事情确实也非常相似。中间件和中间人都能在中途劫持数据，做一些修改再把数据传递出去。不同点在于，中间件是开发者主动加进去的组件，而中间人是被动的，一般是恶意地加进去的环节。中间件主要用来辅助开发，而中间人却多被用来进行数据的窃取、伪造甚至攻击。

在Scrapy中有两种中间件：下载器中间件(Downloader Middleware)和爬虫中间件(Spider Middleware)。

下载器中间件

Scrapy 的官方文档中，对下载器中间件的解释如下。

下载器中间件是介于Scrapy的request/response处理的钩子框架，是用于全局修改 Scrapy 的 request 和 response 的一个轻量、底层的系统。

这个介绍看起来非常绕口，但其实用容易理解的话表述就是：更换代理IP，更换Cookies，更换User-Agent，自动重试。

如果完全没有中间件，爬虫的流程如下图所示。

使用了中间件以后，爬虫的流程如下图所示。

开发代理中间件

Scrapy 设置代理终极宝典：https://zhuanlan.zhihu/p/79067223

scrapy 切换代理针对特定响应状态码，使用代理重新请求

HttpProxyMiddleware(HTTP 代理中间件)：https://github/kohn/HttpProxyMiddleware
scrapy 爬虫的自动代理中间件：https://github/cocoakekeyu/autoproxy

获取免费代理, 主要抓的是大陆的高匿代理：https://github/kohn/HttpProxyMiddleware/blob/master/fetch_free_proxyes.py

scrapy 爬虫代理 --- 利用 crawlera 神器，无需再寻找代理IP：http://blog.csdn/xiao4816/article/details/50650075

在爬虫开发中，更换代理IP是非常常见的情况，有时候每一次访问都需要随机选择一个代理IP来进行。

中间件本身是一个Python的类，只是爬虫每次访问网站之前都要先“经过”这个类，它就能给请求换新的代理IP，这样就能实现动态改变代理。

创建 scrapy 工程：scrapy startproject <工程名>

创建完 Scrapy 工程以后( 这里创建的工程名为 AdvanceSpider )，工程文件夹下会有一个 middlewares.py 文件，打开以后其内容如下图所示：

Scrapy 自动生成的这个文件名称为 middlewares.py，名字后面的 s 表示复数，说明这个文件里面可以放很多个中间件。

middlewares.py 中有 2 个 Python类，每个类都代表一个中间件，代码如下：

# -*- coding: utf-8 -*-

# Define here the models for your spider middleware
#
# See documentation in:
# https://docs.scrapy/en/latest/topics/spider-middleware.html

from scrapy import signals


class AdvancespiderSpiderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the spider middleware does not modify the
    # passed objects.

    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_spider_input(self, response, spider):
        # Called for each response that goes through the spider
        # middleware and into the spider.

        # Should return None or raise an exception.
        return None

    def process_spider_output(self, response, result, spider):
        # Called with the results returned from the Spider, after
        # it has processed the response.

        # Must return an iterable of Request, dict or Item objects.
        for i in result:
            yield i

    def process_spider_exception(self, response, exception, spider):
        # Called when a spider or process_spider_input() method
        # (from other spider middleware) raises an exception.

        # Should return either None or an iterable of Request, dict
        # or Item objects.
        pass

    def process_start_requests(self, start_requests, spider):
        # Called with the start requests of the spider, and works
        # similarly to the process_spider_output() method, except
        # that it doesn’t have a response associated.

        # Must return only requests (not items).
        for r in start_requests:
            yield r

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)


class AdvancespiderDownloaderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the downl

本文标签：中间件 scrapy

版权声明：本文标题：彻底搞懂 Scrapy 的中间件内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1729261018a1192903.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

彻底搞懂 Scrapy 的中间件

在 Scrapy 中捕获并处理各种异常

彻底搞懂Scrapy的中间件(一)

下载器中间件

开发代理中间件

更多相关文章

weblogic中间件通用应急预案

计算机软件及应用3篇

scrapy

软件和信息技术服务分类目录及代码

scrapy中如何实现翻页抓取数据

爬虫 - Scrapy 爬取某招聘网站

scrapy结合selenium进行动态加载页面内容爬取

scrapy通过Request返回的页面数据与浏览器查看到的页面数据不一致

scrapy实战--爬取腾讯的招聘信息

ibmmq 通道命令_实时查看MQ中间件运行状态

面试题大全1-javaSE部分-JavaEE&amp;框架&amp;中间件

Java高频面试题 - Java、SpringCould、中间件

运行scrapy 报错：CRITICAL: Unhandled error in Deferred [Errno 11] Resource temporarily unavailable

中间件系列 - RabbitMQ

安装中间件使linux系统能够读取移动硬盘

Python3+Scrapy+Selenium腾讯企业邮箱的指定邮件读取功能

Python爬虫之scrapy框架360全网图片爬取

Python3 scrapy下载网易云音乐所有（大部分）歌曲

Hadoop大集群配置文档-粗略版-3万字长文 (包括hive，zookeeper，hbase,flume等中间件和mysql等)

墨天轮沙龙 | SphereEx代野：Apache ShardingSphere-从中间件到分布式生态演进之路

发表评论

推荐文章

slack注册教程

Juniper SRX Destination NAT中内网访问映射地址问题

爱奇艺广告

9.pixi.js编写的塔防游戏(类似保卫萝卜)-群炮弹发射逻辑

设置虚拟机网络可与主机互Ping；解决Ubuntu与主机互相Ping不通的问题；解决虚拟机网卡黄色感叹号问题（找不到虚拟机网卡）；解决虚拟机无法扩容问题

热门文章

联想电脑的预装软件迈克菲究竟要不要卸载？

【Appium踩坑】xcodebuild: Unable to find a destination matching the provided destination specifier

Flink Table API SQL Could not find any factories that implement ‘org.apache.flink.table.delegation.E

linux虚拟机启动黑屏_虚拟机中 linux 系统启动后 一直黑屏解决办法

cc++趣味小游戏集

技术讨论 | 简谈渗透测试各阶段我常用的那些“神器”

office2016背景

IDN-Fast and Accurate Single Image Super-Resolution via Information Distillation Network信息蒸馏网络

【开发经验】springboot配置文件加密详解

C语言源代码系列-管理系统之文件加密任务书

最新文章

SSM项目中使用DES对数据库配置文件加密

SHA256 算法 加密文件、防文件篡改、文件校验

matlab怎么将程序加密,对于MATLAB M文件怎么加密

如何对xilinx FPGA进行bit文件加密

ffmpeg 4.4版本对MP4文件进行AES-CTR加密，和流式加密

Linux etcshadow文件中的密码字段 加密密码生成 hash

密码学： Vigenere 密码法实现文件加密与解密 （C 语言）

文件加密，解密，解除加密

【python文件读取】加密数据的读取

Json文件内容加密

使用Cython库包对python的py文件（源码）进行加密，把python的.py文件生成.so文件并调用

C语言文件操作—DES文件加密解密

关于PDF文件加密无法打印的问题

对Bat文件进行加密

BMP位图文件加密

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

面试题大全1-javaSE部分-JavaEE&框架&中间件

linux虚拟机启动黑屏_虚拟机中 linux 系统启动后一直黑屏解决办法

SHA256 算法加密文件、防文件篡改、文件校验

Linux etcshadow文件中的密码字段加密密码生成 hash

密码学： Vigenere 密码法实现文件加密与解密（C 语言）

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载