python爬虫框架有哪些|电子爱好者

admin管理员组
文章数量:1531755

2024年7月17日发(作者：)

python爬虫框架有哪些

Python是一门优雅的〔编程〕语言，被广泛应用在Web开发、

〔游戏开发〕、〔人工智能〕、云计算开发、〔大数据〕开发、数据

分析、科学运算、爬虫、自动化运维、自动化测试等领域，Python

在各领域的应用最方便的就是使用框架，可以让程序员以更少的

代码实现自定义功能，还可以将更多的精力集中在业务逻辑上，

更加的轻松便利!下面是我为您整理的关于〔python〕爬虫框架有

哪些，希望对你有所帮助。

2018年主流的Python爬虫框架有以下5种：

Django是一个开源的Web应用框架，由Python写成，支持许

多数据库引擎，可以让Web开发变得迅速和可扩大，并会不断的

版本更新以匹配Python最新版本，如果是新手程序员，可以从这

个框架入手。

CherryPy是一种用于Python的、简单而非常有用的Web框架，

其主要作用是以尽可能少的操作将Web服务器与Python代码连接，

其功能包括内置的分析功能、灵活的插件系统以及一次运行多个

第 1 页共 8 页

HTTP服务器的功能，可与运行在最新版本的Python、Jython、

Android上。

2py

web2py 是一个为Python语言提供的全功能Web应用框架，旨

在敏捷快速的开发Web应用，具有快速、安全以及可移植的数据

库驱动的应用，兼容 Google App Engine。

ears

TurboGears可以快速实现Web应用程序开发，富含丰富的特别

性能，可以解决更多的框架领域问题，从简单到复杂的项目都可

以开发，并具有实时的多数据库支持和灵活的ORM，简单的文档

和最小的设置使它成为一个理想的使用框架。

Pylons是一个开源的Web应用框架，使用Python语言编写，

它对WSGI标准进行了扩大应用，提升了重用性且将功能分割到独

立的模块中，而且提供了在线调试器，易于错误跟踪!

爬虫框架有哪些

多想写网络爬虫的同学会关怀目前有哪些好用的爬虫框架，于

是我就搜集了一些一些爬虫框架的简单介绍供大家参照：

1、神箭手云爬虫框架

是一个免费的网络爬虫框架，为开发者提供成套的开发教程和

开发工具，为企业提供专业化的数据抓取、数据实时监控和数据

第 2 页共 8 页

分析服务。

最大的特点是一站式服务，通过底层框架简化了网络爬虫开发

难度，而且提供了丰富的开源网络爬虫资源。

2、Nutch

这是一个开源Java 实现的搜索引擎，提供了我们运行自己的

搜索引擎所必须的全部工具，包括全文搜索和Web爬虫。Nutch

目前最新的版本为version v2.3。

3、Crawler4j

Crawler4j是一个开源的Java类库提供一个用于抓取Web页面

的简单接口。可以利用它来构建一个多线程的Web爬虫。

4、WebMagic

WebMagic是一个简单灵活的Java爬虫框架。

它的特性包括：简单的API，可快速上手;模块化的结构，可轻

松扩大;提供多线程和分布式支持

5、Heritrix

这是一个由〔java〕开发的、开源的网络爬虫，用户可以使

用它来从网上抓取想要的资源。其最出色之处在于它优良的可扩

大性，方便用户实现自己的抓取逻辑。

用python爬虫框架Scrapy爬取

Scrapy，Python开发的一个快速,高层次的屏幕抓取和web抓

取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy

第 3 页共 8 页

用途广泛，可以用于数据挖掘、监测和自动化测试。

Scrapy吸引人的地方在于它是一个框架，任何人都可以依据必

须求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、

sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。

Scratch，是抓取的意思，这个Python的爬虫框架叫Scrapy，

大概也是这个意思吧，就叫它：小刮刮吧。

Scrapy主要包括了以下组件：

引擎(Scrapy)

用来处理整个系统的数据流处理, 触发事务(框架核心)

调度器(Scheduler)

用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求

的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)

的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除

重复的网址

下载器(Downloader)

用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器

是建立在twisted这个高效的异步模型上的)

爬虫(Spiders)

爬虫是主要干活的, 用于从特定的网页中提取自己必须要的信

第 4 页共 8 页

息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy

持续抓取下一个页面

项目管道(Pipeline)

负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、

验证实体的有效性、清除不必须要的信息。当页面被爬虫解析后，

将被发送到项目管道，并经过几个特定的次序处理数据。

下载器中间件(Downloader Middlewares)

位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引

擎与下载器之间的请求及响应。

爬虫中间件(Spider Middlewares)

介于Scrapy引擎和爬虫之间的框架，主要工作是处理蜘蛛的响

应输入和请求输出。

调度中间件(Scheduler Middewares)

介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到

调度的请求和响应。

Scrapy运行流程大概如下：

引擎从调度器中取出一个链接(URL)用于接下来的抓取

引擎把URL封装成一个请求(Request)传给下载器

下载器把资源下载下来，并封装成应答包(Response)

爬虫解析Response

解析出实体(Item),则交给实体管道进行进一步的处理

第 5 页共 8 页

解析出的是链接(URL),则把URL交给调度器等待抓取

因为python3并不能完全支持Scrapy，因此为了完美运行

Scrapy，我们使用python2.7来编写和运行Scrapy。

python爬虫架构

(一)、了解网络爬虫之前，我们先来了解下搜索引擎的工作原

理：

做过网页的人都明白，网络上HTML文档使用超链接连接了以来，

把这些虚拟化的东西可以形象成一张网，也就是万维网。当你在

搜索引擎中输入关键字的时候，就相当于放出了很多的网络爬虫。

别忘了，你的〔电脑〕正处于万维网的一个节点(一个网站)，而

你输入的关键字正指定了一系列的网站。也就是所说的url，而

关键字与url的索引，正是有爬虫建立的。这些索引经过了一系

列的排序算法才浮现在我们的面前。简单的说，就是我们输入关

键字，放出爬虫，爬虫将关键字与相对的网站建立索引，然后经

过复杂算法排序浮现出来。只不过这些索引有的早就已经建立完

成了，所以我们输入关键字后才会那么快出来网站。

(二)、知道了网络爬虫的概念，再来了解下网络爬虫的原理。

知道了这些大致的原理，我们才会在写爬虫的时候有全局观念。

上面所说，url对应了一个网页，既然是网页，就会有相应的

HTML页面。网络爬虫会把这个HTML页面全部抓下来，也页面是

字符串。也就是说网络爬虫会把字符串抓下来，然后解析这些字

第 6 页共 8 页

符串，有的字符串解析成图片，有的解析成电影的网址(也就是我

们所说的种子!)，总而言之会把文本信息提取出来。而这些文本

信息储存在你的电脑运行内存里，并非磁盘，如果想要留下来，

只必须要储存，就可以把相应的文本信息存下来，这就是爬虫最

可怕的地方。因为爬取url和解析文本的时间极短，比你点击鼠

标的时间短得多，简单来说，网速正常的状况下，单线程的爬虫，

一分钟下载数百张的图片不是问题。

(三)、我们来了解下为何使用python来写爬虫：

首先，python是脚本语言，这一点是C，C++，java等比不上

的，最简单来说，python执行不必须要编译，写一行执行一行，

知道有错误的地方才会停止运行。它不必须要申请太大的进程空

间，所以运行效果很好。

其次，python有很强大的库，只要import，就可以运行，不必

须要与库函数再进行链接，这一点C，C++比不上。当然C、C++

也有python没有的优点，因为今天python主场，不再讨论。

最后，python书写的语法很简单，正则表达式更是简介到不可

思议，她还有很好的缩进，使得再多的代码也会显得简洁明了。

(四)、写python前，我们必须要了解下python如何访问网络。

使用过python的人都了解，python自带了很强大的库，而这

些库里面又包涵很多函数模块。python访问互联网用到的库就是

urllib，而请求访问网络的是t模块。

第 7 页共 8 页

第 8 页共 8 页

本文标签：爬虫框架网络提供抓取

版权声明：本文标题：python爬虫框架有哪些内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1721203337a865746.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

浏览器安全、XSS 攻击、CSRF 攻击、防御攻击、中间人攻击、网络劫持

2天前

1. 什么是 XSS 攻击？ （1）概念 XSS 攻击指的是跨站脚本攻击，是一种代码注入攻击。攻击者通过在网站注入恶意脚本，使

网络的可持续性发展

2天前

什么是可持续性发展？ 可持续发展(Sustainable Development)是八十年代提出的一个新概念。1987年世界环境与发展委员会在《我们共同的未来》报告中第一次阐述了可持续发展的概念，

计算机找不到wlan,Win10网络设置找不到wlan选项怎么办？

2天前

最近一用户在Win10笔记本中设置网络时，找不到wlan选项，这是怎么回事呢？原因可能是无线服务未开启或者无线网卡驱动未安装，也可能是无线网络开关未开启

beego框架：static目录下的apk文件浏览器下载使用正常，手机浏览器下载无法解析安装

1天前

前段时间需要提供使用一个下载的服务，beego框架可以简单完成这个任务，因此使用beego去写这个下载服务遇到一个问题：apk文件在浏览器端下载可以正常使用，但是在手机浏览器下载后，不能正常解析安装，校验了一下原文件与PC浏览器下载

WebUI自动化测试框架搭建（十六）-框架主入口main.py设计&sendmail邮件服务调用和生成

1天前

（十六）-框架主入口main.py设计&sendmail邮件服务调用和生成 1 测试目的2 测试需求3 需求分析4 详细设计4.1 设计main.py脚本5 调用邮件服务主函数main.py源码6 运行效果7 目前框架结构1 测试目

「Python爬虫系列讲解」十一、基于登录分析的 Selenium 微博爬虫

1天前

本专栏是以杨秀璋老师爬虫著作《Python网络数据爬取及分析「从入门到精通」》为主线、个人学习理解为主要内容，以学习笔记形式编写的。本专栏不光是自己的一个学习分享，也希望能给您普及一些关于爬虫的

python 爬虫 selenium 无头浏览器设置

1天前

使用selenium 爬取数据，不弹出浏览器，后台运行，需要代码设置下无头参数配置 #浏览器在后台运行，不弹出页面from selenium.web

浏览器攻击框架BeEF Part 3：持续控制

1天前

前言前两章分别对BeEF框架做了初步介绍以及讲解了初始化控制。前情提要：浏览器攻击框架BeEF Part 1，浏览器攻击框架BeEF Part 2：初始化控制接下

win10每次开机都要禁用网络连接再启用才能上网

1天前

（win10系统） 右键此电脑->管理->设备管理器打开设备管理器，展开网络适配器将网卡卸载。重启电脑就OK了

为什么我的Chrome浏览器一打开开发模式就无法链接网络？

1天前

最近使用的谷歌浏览器突然之间，就不听话了，使用浏览器进行降页面调试时网络无法连接了，如： 正常模式打开： 开发者模式打开&

Chrome浏览器本地调试：阻止不安全、本地网络请求

1天前

今天打开Chrome浏览器，本地开发联调突然报错。 Access to script at http:localhost:8001xxx.js from origin http:xxx.xxx.xxxx h

无线网如何访问服务器公共盘,如何访问双频无线路由器网络共享服务器

1天前

家用无线路由器作为家庭里不可或缺的网络设备,在给普通人带来极大便利，那么你知道如何访问双频无线路由器网络共享服务器吗?下面是学习啦小编整理的一些关于如何访问双频无线路由器网络共享服务器的相关资料，

手机显示服务器与网络出现故障,手机显示网络不给力是什么原因

1天前

2019-10-08阅读(189) 网络不给力有以下几种可能：手机使用的基站网络信号弱，导致网速慢，这时可以查看一下手机信号，尝试移动位置试试。手机使用

常见网络排查，教你玩转路由器

1天前

1. 问题背景上网，路由器已经普及较为广泛，或许你还在为不懂这些而困惑，给电信交了钱自己却上不了网；每次发现自己家网络出问题了&#xff0c

Unity开发-网络.算法.平台相关知识！

19小时前

A. 网络相关知识一、TCP 1、面向数据流。可靠。能保证消息到达顺序。 2、滑动窗口。控制发送量，发送方只能发送窗口内大小的数据包。防止发送方发送的数据过多，接收方无法处理的情况。 3

CentOS7.4安装五笔输入法，搜狗拼音输入法等（基于fcitx框架），满足你的个性需求

10小时前

写在前面： 楼主曾经也为Linux的输入法烦恼过，为此在网上努力的翻看过很多帖子，也最终明白了Linux系统输入法基本实现原理，特此分享给需要的朋友。

移动网络怎么修改服务器地址,移动宽带怎么修改wifi密码？

7小时前

问：家里用的移动的光纤宽带； 现在需要修改wifi密码，应该怎么操作？ 这2篇文章中，已经详细的说明了，修改

优点家庭服务器修改wifi,家庭联网三种方式---不看后悔! - 【网络基础】 - 我是网管论坛 - 畅通网络因......

7小时前

家庭组网，成为网友们近两年最热门的话题。家庭可以组网的方式有很多种，如两机互联、交换机组网、宽带路由器组网、无线组网、USB网线组网等等。在各种组网方式面前，经常会看到论坛中

无线WiFi网络的密码破解攻防及原理详解

7小时前

大家应该都有过这样的经历，就是感觉自己家的无线网怎么感觉好像变慢了，"是不是有人蹭我家网？""还有的时候咱们出门也想试图蹭一下别人家的网&quo

win10找不到wifi网络_10月微信新方法！手机搜索不到wifi网络，微信这样设置一下，走到哪里都能蹭网...

6小时前

阅读本文前，请您先点击上面的“蓝色字体”，再点击“关注”，这样您就可以继续免费收到文章了。每天都会有分享，都是免费订阅，请您放心关

电子爱好者 - 最新技术资讯及电子产品介绍！

python爬虫框架有哪些

更多相关文章

浏览器安全、XSS 攻击、CSRF 攻击、防御攻击、中间人攻击、网络劫持

网络的可持续性发展

计算机找不到wlan,Win10网络设置找不到wlan选项怎么办？

beego框架：static目录下的apk文件浏览器下载使用正常，手机浏览器下载无法解析安装

WebUI自动化测试框架搭建（十六）-框架主入口main.py设计&amp;sendmail邮件服务调用和生成

「Python爬虫系列讲解」十一、基于登录分析的 Selenium 微博爬虫

python 爬虫 selenium 无头浏览器设置

浏览器攻击框架BeEF Part 3：持续控制

win10每次开机都要禁用网络连接 再启用才能上网

为什么我的Chrome浏览器一打开开发模式就无法链接网络？

Chrome浏览器本地调试：阻止不安全、本地网络请求

无线网如何访问服务器公共盘,如何访问双频无线路由器网络共享服务器

手机显示服务器与网络出现故障,手机显示网络不给力是什么原因

常见网络排查，教你玩转路由器

Unity开发-网络.算法.平台相关知识！

CentOS7.4安装五笔输入法，搜狗拼音输入法等（基于fcitx框架），满足你的个性需求

移动网络怎么修改服务器地址,移动宽带怎么修改wifi密码？

优点家庭服务器修改wifi,家庭联网三种方式---不看后悔! - 【 网络基础 】 - 我是网管论坛 - 畅通网络 因......

无线WiFi网络的密码破解攻防及原理详解

win10找不到wifi网络_10月微信新方法！手机搜索不到wifi网络，微信这样设置一下，走到哪里都能蹭网...

发表评论

推荐文章

win10上搭建VS2013 + QT5.6.0 环境

构建完善的安全渗透测试环境：推荐工具、资源和下载链接

Windows10关闭80端口占用(其它端口同理)

我家的无线WIFI你别连---教你怎么屏蔽外人的WIFI连接

ubuntu18.04 无法识别移动硬盘

热门文章

Linux 学习包括但不限于linux使用问题笔记

电脑卡在LOGO界面，进步了系统，也进不了bios解决办法

Win之NirCmd：NirCmd的简介、安装、使用方法之详细攻略

三种查找Windows10环境变量的方法

lopatkin俄大神精简系统Windows 10 Pro 18362.10006 19H2 PreRelease x86-x64 ZH-CN MICRO

WIN7WIN8下安装原版XP的一种方法20140927

Python3实现WiFi密码暴力破解

移动硬盘数据恢复，6个亲测有效方法公开！

子句逻辑与归结:理论背景

如何用光盘映像文件重装服务器系统,光盘镜像文件怎么安装|教你安装光盘镜像方法...

最新文章

最简单的WIN7内核PE系统

在XP系统上出现无法定位程序输入点 K32GetProcessMemoryInfo

服务器运行按键精灵脚本,打开按键精灵自动运行脚本的方法_win7系统如何使用按键精灵的图文步骤...

搭建qnx开发环境，虚拟qnx系统+虚拟win7系统+QNX Momentics IDE 4.6

ar5b95无线网卡linux驱动,Qualcomm Atheros AR5xxxAR9xxx无线网卡驱动下载10.0.0.303 WHQL版For XP-32XP-64Win7-32Win7...

计算机切换到登录界面了,让我来教大家从WIN10界面切换到WIN 7界面吧！嘻嘻

Win7 系统下配置WinCE 5.0 模拟器网络环境

台式计算机如何升级,台式电脑怎样升级系统

浅谈windows 8.1--如何从xp或win 7 过渡到win 8.1

移动魔百和系统升级服务器地址,【当贝市场】移动魔百盒升级后无法观看视频怎么办...

xp给指定计算机共享,WinXP系统设置访问共享提示指定网络名不可用怎么解决

更换ssd硬盘并安装双系统（mac+win7）

本来共享的计算机突然无法访问,win7无法启用共享访问怎么办_win7无法启用共享访问如何处理-win7之家...

快捷打开计算机管理设置,Win7系统下怎么设置Ctrl+Alt+Del快捷打开任务管理器【图文】...

XP MSTSC连接WIN7或WIN8问题

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

WebUI自动化测试框架搭建（十六）-框架主入口main.py设计&sendmail邮件服务调用和生成

win10每次开机都要禁用网络连接再启用才能上网

优点家庭服务器修改wifi,家庭联网三种方式---不看后悔! - 【网络基础】 - 我是网管论坛 - 畅通网络因......

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载