scrapy框架的工作流程介绍|电子爱好者

admin管理员组
文章数量:1531737

2024年2月28日发(作者：)

Scrapy的运作流程由引擎控制，其过程如下:

(1)引擎向Spiders请求第个要爬取的URL(s)。

(2)引擎从Spiders中获取到个要爬取的URL，装成Request并交给调度器。

(3)引擎向调度器请求下一个要爬取的Request。

(4)调度器返回下一个要爬取的Request给引擎，引擎将Request通过下载中间件转发给下载器。

(5)一旦页面下载完毕，下载器生成一个该页面的Response,并将其通过下载中间件给引擎。

(6)引擎从下载器中接收到Response并通过Spider中间件给Spider处理。

(7)Spider处理Response并返回爬取到的Item及新的Request给引擎。

(8)引擎将爬取到的Item给ItemPipeline,将Request给调度器。

(9)从第(2)步始重复，直到调度器中没有更多的Request。

为了帮助家更好地理解Scrapy的一次完整运行流程，把Scrapy的运作流程用拟人小剧场的进行表现，如下所示:

(1)引擎:Hi!Spider,你要处理哪一个?

(2)Spider:老要处理。

(3)引擎:你把个需要处理的URL给吧。

(4)Spider:给你，个。

(5)引擎:Hi!调度器，这有Request请求，你帮排序入队一下。

(6)调度器:好的，正在处理，你等一下。

(7)引擎:Hi!调度器，把你处理好的Request请求给。

(8)调度器:给你，这处理好的Requesto

(9)引擎:Hi!下载器，你按照老的下载中间件的设置帮下载一下这个Request请求。

(10)下载器:好的!给你，这下载好的东西。(如果失败:Sorry,这个Request下载失败了。然后引擎告诉调度器，这个Request下载失败了，你记录一下，们待会儿再下载)。

(11)引擎:Hi!Spider,这下载好的东西，并且已经按照老的下载中间件处理过了，你自己处理一下(注意!这儿Responses默认交给defparse(这个函数处理的)。

(12)Spider:(处理完毕数据之后对于需要跟进的URL)，Hi!引擎，这里有两个结果，这个需要跟进的URL,还有这个获取到的Item数据。

(13)引擎:Hi!管道，这儿有个item你帮处理一下!调度器!这需要跟进的URL你帮处理下。

(14)管道，调度器:好的，现在就!

然后，从第(4)步始循环，直到获取完老需要的全部信息。

本文标签：下载引擎调度流程需要

版权声明：本文标题：scrapy框架的工作流程介绍内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1709073326a219639.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

BIOS启动流程总结

4天前

基础知识 MBR 主引导记录（Master Boot Record，缩写：MBR），又叫做主引导扇区，是

ensp启动设备蓝屏_电脑蓝屏了怎么办？送你一套标准解决流程

4天前

眼熟吗？ 你是不是也曾遇到过这样的提示？ 多么宁静而美丽的蓝色！ 看了就让人欲哭无泪小编马上就带你了解“蓝屏”的前世今生知识点“土楼梯” 1 什么是【蓝屏】&#x

台式机U盘安装win10流程及故障解决

4天前

台式电脑以前装了两个系统，win7和ubuntu，现在需要计算机来跑代码了，加之又有强迫症，于是一切清空，重装系统&#xf

渗透测试流程-全(仅供学习，知识分享)

3天前

前言文章仅供安全领域的朋友学习使用！！ 严禁做违法违纪的事情，责任自负！ 1 信息收集 1.1域名注册信息通过如下步骤确认目标所有者信息&a

整理MySQL安装配置修改流程

3天前

一、正常步骤。 1.拷贝mysql-5.6.24-win32到指定目录。 2.修改my.ini配置文件。server-id，port，basedir，datadir等参数

Windows10 安装 Ubuntu 16.04LTS 双系统及fslfreesurfermatlab 软件安装全流程（小白踩坑汇报）（更新）...

3天前

由于使用需求，我最近打算给自己的电脑装一个Windows10 + ubuntu16.0.4 双系统，来处理一下影像数据，作为第一次安装双系统的小白，在安装的过程中遇到了很多问题，最后通过多方查找和尝试，终于全都解决了，觉得这是一次很宝贵的学

腾讯云点播简介和使用流程

3天前

目录一，腾讯云点播简介二，准备工作 1，点击：申请腾讯云账号 2，实名 3，购买点播存储包和流

SQLserver安装数据库引擎服务失败解决方案

3天前

博主第一次安装时最上面这个选项是失败。调查了网友的解决方案，有： 1.先全部卸载，重新安装数据库。 2.关闭防火墙，重新安装数据库。 3.卸载后重

mysql 四种存储引擎_数据库：MySQL几种常用的存储引擎区别

3天前

MySQL是我们经常使用的数据库处理系统(DBMS)，不知小伙伴们有没有注意过其中的“存储引擎”(storage_engine)呢？有时候面试题中也会问道MySQL几种常用的存储引擎的区别。这次就

揭秘下一代云数据库引擎MyBasefor PostgreSQL

3天前

简介：在MyBase中，PG引擎除了包含RDS所有的能力，还包含GIS、分词搜索、精准营销、复杂SQL、Oracle兼容扩展和图像识别等核心能力。一、PostgreSQL引

安装sql server时，提示sql server 复制、数据库引擎服务、Reporting Services、全文搜索等失败；

3天前

当安装过程提示Windows防火墙错误时，最直接解决办法就是关闭防火墙： 依次点击：我的电脑，属性，控制面板主页&#xff

MySQL之innodb数据库引擎

3天前

简介 innodb事务型数据库的首选引擎，支持ACID事务，支持行级锁定。InnoDB是为处理巨大数据量时的最大性能设计。Innodb存储引擎完全与MySQL服务器整合，I

查询mysql的引擎

3天前

一般情况下，mysql会默认提供多种存储引擎,你可以通过下面的查看: 看你的mysql现在已提供什么存储引擎: mysql> show engines;看你的mysql当前默认的存储引擎: mysql>

MySQL 数据库--存储引擎（MyISAM 与 InnoDB）

3天前

文章目录前言一、MySQL存储引擎1.MyISAM的特点2.MyISAM适用的生产场景举例二、InnoDB 存储引擎1.InnoDB的特点2.InnoDB 适用的生产场景3.企业选择存储引擎的依据三、配置合适的存储引擎1.查看数据库可

APP测试基本流程及APP测试要点

3天前

1、安全测试 1.1 软件权限 1）扣费风险：包括发送短信、拨打电话、连接网络等 2）隐私泄露风险：包括访问手机信息、访问联系人信息等 3&

谷歌开发者帐号申请流程_2020年针对软件开发人员角色的Google面试流程

3天前

谷歌开发者帐号申请流程 Hello! I just finished interviewing with Google and wanted to quickly catch you up on some interesting and f

Windows10系统的启动流程

2天前

名词解释： windows boot manager： 是windows启动管理器。启动管理器（boot manager）是windows引导程序、g

chatgpt-web发布之docker打包流程

1天前

docker打包流程 1、使用docker前置准备： 电脑下载docker桌面版，以及开启虚拟机步骤：https:blog.csdnqq_34905631arti

解读第三方授权登录：OAuth2.0协议标准的应用与流程

1天前

1. 第三方授权登录 1.1 简介第三方授权登录作为一种用户认证方式，允许用户通过已有的第三方账户（微信、QQ、新浪等）进行登录，无需在新的应用中

Ubuntu上AMD显卡能够使用的stable diffusion webui部署方案流程

17小时前

本文环境使用实体设备，显卡是AMD RX6800XT。系统是ubuntu20.04.5 LTS 桌面版，部署成功后也可以在评论区发出你的显卡型号和系统。非虚拟化环境。分个100G的分区安装Ubuntu，可以与win共存！想用哪个系统就重

电子爱好者 - 最新技术资讯及电子产品介绍！

scrapy框架的工作流程介绍

更多相关文章

BIOS启动流程总结

ensp启动设备蓝屏_电脑蓝屏了怎么办？送你一套标准解决流程

台式机U盘安装win10流程及故障解决

渗透测试流程-全(仅供学习，知识分享)

整理MySQL安装配置修改流程

Windows10 安装 Ubuntu 16.04LTS 双系统及fslfreesurfermatlab 软件安装全流程（小白踩坑汇报）（更新）...

腾讯云点播简介和使用流程

SQLserver安装数据库引擎服务失败解决方案

mysql 四种存储引擎_数据库：MySQL几种常用的存储引擎区别

揭秘下一代云数据库引擎MyBasefor PostgreSQL

安装sql server时，提示sql server 复制、数据库引擎服务、Reporting Services、全文搜索等失败；

MySQL之innodb数据库引擎

查询mysql的引擎

MySQL 数据库--存储引擎（MyISAM 与 InnoDB）

APP测试基本流程及APP测试要点

谷歌开发者帐号申请流程_2020年针对软件开发人员角色的Google面试流程

Windows10系统的启动流程

chatgpt-web发布之docker打包流程

解读第三方授权登录：OAuth2.0协议标准的应用与流程

Ubuntu上AMD显卡能够使用的stable diffusion webui部署方案流程

发表评论

推荐文章

谷歌浏览器地址栏记录怎么删除 Chrome浏览器地址栏记录清除方法

thinkpad重装系统不引导_Thinkpad笔记本重装系统时无法UEFI启动进入PE怎么办

android如何修改桌面,安卓手机怎么修改桌面上软件的名字呀！

WIFI开关制作

Centos服务器上使用移动硬盘（NTFS分区）

热门文章

分组密码的运行模式 Pedersen commitment环形振荡器

干货|JustAuth三方账号授权登录免费搭建全流程

维盟虚拟服务器,「包教会」WayOS路由PPPoE设置教程！

ArchLinux安装与配置(原系统win的双系统)

python报错：torch-0.4.1-cp36-cp36m-win_amd64.whl is not a supported wheel on this platform.

AMD的cpu和Windows11系统下安装ensp，启动NE40E设备失败解决办法

万能播放器:暴风影音4大使用设置技巧

Windows10系统开启FTP服务--主机通过winscp互传文件

移动硬盘显示无法访问文件或目录损坏且无法读取，里面的资料怎么寻回

Project Management

最新文章

在服务器上虚拟w7,如何在虚拟机中获取Win7 Aero特效(图)

VS为XP开发的程序移植到Win7上遇到两个小的问题及解决办法

计算机蓝屏 代码0000a,Win7系统出现蓝屏代码0x000000a的原因及解决方法

微软终止支持Win7 但系统仍然可正常使用

WIN7如何禁止IE浏览器自动升级

xp及win7双系统下硬盘安装ubuntu11.04

简单操作拥有Win7XP双系统

XpWin7下的VC6的调试、多开工程实例等问题的完全兼容解决方案

网络里找不到工作组的计算机,win7系统看不到工作组计算机怎么办？win7系统看不到工作组计算机解决方法...

借win11 WSA升级12l，水一贴升级方法和说说要不要升级win11。

win7无法连接打印机拒绝访问_打印机共享时拒绝访问

nvidia控制面板点了没反应win7_n卡控制面板没有显示选项修复方法_win7系统nvidia控制面板没有显示选项最佳设置...

win7微软停止服务器,微软将于明年1月14日对Windows 7终止支持，那Win7系统还能用吗？...

2017无盘服务器,(2017.11.19)云更新2017正式版2017.6.15.6596无盘xp-win7x32-x64-win10x64公包...

win7虚拟机时间不能修改怎么办

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

计算机蓝屏代码0000a,Win7系统出现蓝屏代码0x000000a的原因及解决方法

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载