Python爬虫技术第25节爬虫框架Scrapy|电子爱好者

admin管理员组
文章数量:1531945

Scrapy架构

Scrapy 是一个用于 Python 的高级 Web 爬取框架，它被设计用来爬取网站并从页面中提取结构化的数据。Scrapy 的核心是一个异步处理引擎，基于 Twisted 这个事件驱动网络引擎构建而成。

主要组件

Scrapy Engine（Scrapy 引擎）：
- 负责处理所有的数据流，发送请求、返回响应以及调度数据到各个组件。
Scheduler（调度器）：
- 排队待处理的请求，并根据优先级将它们发送给引擎。
Downloader（下载器）：
- 负责处理所有实际的 HTTP 请求和响应。
Spider（爬虫）：
- 解析响应数据，提取数据（抓取项目），以及生成新的请求。
Item Pipeline（项目管道）：
- 处理爬取的数据，例如清洗、验证、存储等。
Middleware（中间件）：
- 处理 Scrapy 组件之间的钩子，允许用户修改或扩展 Scrapy 的行为。

创建项目和爬虫

创建项目

打开命令行工具。
使用 scrapy startproject <project_name> 命令创建一个新的 Scrapy 项目。
进入项目目录：cd <project_name>。

创建爬虫

在项目目录下运行 scrapy genspider <name> <domain> 命令来创建一个爬虫。
- <name> 是爬虫的名字。
- <domain> 是你想要爬取的网站域名。
编辑 spiders/<name>.py 文件来定义爬虫的行为。
定义 start_requests 方法以启动爬虫。
实现 parse 方法来解析响应并提取数据。

数据管道和中间件

数据管道 (Item Pipeline)

数据管道是用来处理爬虫提取的 Item 对象的一系列组件。你可以定义多个管道来处理数据，比如清理数据、验证数据、存储数据等。

在 settings.py 中启用管道。
定义一个类继承自 scrapy.pipelines.ItemPipeline。
实现 process_item 方法，该方法接收 Item 和 Spider 并返回 Item 或抛出异常。

中间件 (Middleware)

中间件允许用户拦截 HTTP 请求和响应，可以用来处理各种需求，如添加 HTTP 头、处理 cookies、设置代理等。

Downloader Middlewares：
- 这些中间件位于下载器与 Scrapy 引擎之间，可以修改请求和响应。
- 需要在 settings.py 中配置中间件列表 DOWNLOADER_MIDDLEWARES。
Spider Middlewares：
- 这些中间件位于爬虫与 Scrapy 引擎之间，可以过滤响应和提取的 Item。
- 配置在 settings.py 中通过 SPIDER_MIDDLEWARES 字典。

这些是 Scrapy 框架的核心概念和使用方法。你可以根据具体需求进行定制和扩展。如果你需要更详细的代码示例或者有其他具体问题，请告诉我！

下面我将展示如何创建一个简单的 Scrapy 项目，并编写一个爬虫来抓取一个网站上的数据。同时，我会介绍如何定义数据管道和中间件。

首先，确保你已经安装了 Scrapy。如果还没有安装，可以通过 pip 安装 Scrapy：

pip install scrapy

然后，按照以下步骤创建项目和爬虫：

创建 Scrapy 项目

打开终端或命令提示符，执行以下命令来创建一个新的 Scrapy 项目：

scrapy startproject myproject
cd myproject

这将在当前目录下创建一个名为 myproject 的文件夹，其中包含了项目的基本结构。

创建爬虫

接下来，我们将创建一个爬虫来抓取一个假设的博客站点 example 上的文章标题和链接。

在项目目录中，执行以下命令创建爬虫：

scrapy genspider example example

这将创建一个名为 example.py 的文件在 myproject/spiders 目录下。打开这个文件并编辑它：

# myproject/spiders/example.py

import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['example']
    start_urls = ['http://example']

    def parse(self, response):
        # 提取文章标题和链接
        for article in response.css('div.article'):
            yield {
                'title': article.css('h2.title::text').get(),
                'link': article.css('a::attr(href)').get(),
            }

        # 提取下一页的链接
        next_page = response.css('div.pagination a.next::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

定义数据管道

为了保存爬取到的数据，我们需要定义一个数据管道。在 myproject/pipelines.py 文件中定义一个简单的数据管道：

# myproject/pipelines.py

import json

class MyprojectPipeline:
    def open_spider(self, spider):
        self.file = open('items.json', 'w')

    def close_spider(self, spider):
        self.file.close()

    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + "\n"
        self.file.write(line)
        return item

接下来，在 settings.py 文件中激活这个管道：

# myproject/settings.py

ITEM_PIPELINES = {
    'myproject.pipelines.MyprojectPipeline': 300,
}

定义中间件

我们可以定义一个中间件来处理请求头。在 myproject/middlewares.py 文件中定义一个简单的中间件：

# myproject/middlewares.py

class CustomUserAgentMiddleware:
    def process_request(self, request, spider):
        request.headers['User-Agent'] = 'MyCustomUserAgent'

然后在 settings.py 中激活这个中间件：

# myproject/settings.py

DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.CustomUserAgentMiddleware': 543,
}

运行爬虫

现在，我们可以通过以下命令来运行爬虫：

scrapy crawl example

这将开始爬取 example 网站，并将数据保存到 items.json 文件中。

以上就是创建一个简单的 Scrapy 项目、爬虫、数据管道和中间件的基本过程。你可以根据需要对这些代码进行修改和扩展。如果有任何疑问或需要进一步的帮助，请随时告诉我！

让我们继续扩展代码，以便更好地理解 Scrapy 的工作原理。我们将添加错误处理、日志记录、更复杂的管道功能以及更多的中间件功能。

错误处理

在爬虫中，我们应该处理可能发生的错误，比如网页找不到的情况。我们可以为 parse 方法添加异常处理逻辑：

# myproject/spiders/example.py

import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['example']
    start_urls = ['http://example']

    def parse(self, response):
        if response.status != 200:
            self.logger.error(f"Failed to load page {response.url}, status code: {response.status}")
            return
        
        # 提取文章标题和链接
        for article in response.css('div.article'):
            yield {
                'title': article.css('h2.title::text').get(),
                'link': article.css('a::attr(href)').get(),
            }

        # 提取下一页的链接
        next_page = response.css('div.pagination a.next::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

更复杂的管道

让我们在管道中增加一些额外的功能，比如检查是否有重复的项，并且添加一些基本的日志记录。

# myproject/pipelines.py

import json
import logging

class MyprojectPipeline:
    def __init__(self):
        self.seen_urls = set()
        self.file = None

    def open_spider(self, spider):
        self.file = open('items.json', 'w')

    def close_spider(self, spider):
        self.file.close()

    def process_item(self, item, spider):
        url = item.get('link')
        if url and url not in self.seen_urls:
            self.seen_urls.add(url)
            line = json.dumps(dict(item)) + "\n"
            self.file.write(line)
            logging.info(f"Processed item: {item}")
            return item
        else:
            logging.warning(f"Duplicated link found: {url}")
            return item

运行爬虫

最后，再次运行爬虫以测试新添加的功能：

scrapy crawl example

这些更改增加了错误处理、日志记录、去重功能和更复杂的中间件功能。这应该能够帮助你更好地理解和应用 Scrapy 的各个组件。如果你还有其他具体的需求或者想了解更多的细节，请告诉我！

本文标签：爬虫框架技术 Python scrapy

版权声明：本文标题：Python爬虫技术第25节爬虫框架Scrapy 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1724843811a993558.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

Python爬虫技术 第25节 爬虫框架Scrapy

Scrapy架构

主要组件

创建项目和爬虫

创建项目

创建爬虫

数据管道和中间件

数据管道 (Item Pipeline)

中间件 (Middleware)

创建 Scrapy 项目

创建爬虫

定义数据管道

定义中间件

运行爬虫

错误处理

更复杂的管道

更多的中间件功能

运行爬虫

更多相关文章

pythonQQ邮箱自动发送邮件

python第三方插件登陆——QQ

python邮件发送，QQ授权码设置

浏览器攻击框架BeEF Part 3：持续控制

【爬虫】修改Chrome浏览器的UserAgent

python selenium webdriver启动chrome浏览器失败？

python实用教程（二）：安装配置Pycharm及使用(Win10)

python 基础知识

【Python】dlib 无需编译安装 dlib-19.23.0-cp39-cp39-win_amd64.whl

密码安全攻防技术精讲

Python：实现视频播放器（附完整源码）

windows10应该安装python那个版本_win 10安装python（详细讲解）

【python】如何提取本机连接过的wifi密码（亲测好用

WIFI智能音箱技术方案开发

Ubuntu18.04系统安装及深度学习框架搭建

python安装失败0x80070570_0x80070570 文件或目录损坏且无法读取 CHKDSK 修复方法

编程奇妙之旅：使用Python写一个Lisp语言的解释器

公众号开发(2) —— 盛派.net SDK + vue搭建微信公众号网页开发框架

探索技术深处，ChatGPT带你解析Go语言源码——explain-source-code-by-chatgpt

AI编程案例003 ChatGPT写爬虫程序-通过搜狗搜索抓取微信公众号文章

发表评论

推荐文章

在Windows10上安全弹出U盘的三种方法，总有一种适合你

Ubuntu16.04搜狗拼音输入法候选栏乱码

不知道wifi密码时， 笔记本怎么连接到网络？

解决windows 7 读取移动硬盘时只能读取前一个分区的问题

基于MATLAB的BP神经网络算法的人脸朝向识别-01

热门文章

Win8系统108个运行命令

win10x64系统下安装并使用ipython

【解决】在Chrome浏览器Cookies内，给项目手动添加token，会报红且无法保存

清除Chrome浏览器DNS缓存

硬盘安装Win7

Win10 AMD610显卡驱动安装出现错误206安装失败

安装ubuntu-18.04-live-server-amd64.iso

win8计算机硬盘无响应,win8.1系统读不出移动硬盘的原因和解决方法

华硕ROG|玩家国度 魔霸7Plus G713PV win11原厂系统 带ASUS Recovery

Macbook换SSD硬盘 备份OS、Win10双系统 完全攻略

最新文章

GPt-4o重磅发布，快速试试自己能否免费试用？

chatGPT 国内版，嵌入midjourney AI创作工具

GPT 4o访问入口及使用指南

我来泼盆冷水：正面迎击AI的时代千万别被ChatGPT割了韭菜

AI视频下载：ChatGPT数据科学与机器学习课程

ChatGPT爆发的时代来了：作为程序员，我的饭碗还能保住吗？

嗯？大火的ChatGPT和new bing都离不开它？

Chatgpt AI这么恐怖？未就业就要失业了？

一位公司老板，上午尝试了 ChatGPT，下午裁员40%_当创业者开始用chatgpt裁员(1)

ChatGPT，乌合之众的疯狂

ChatGPT Flutter 课程项目教程

为什么说ChatGPT还不是搜索引擎的对手

最新chatGPT镜像网站入口

【新知】chatGPT 使用笔记（一）——文本代码显示不全的问题解决

打造中国版ChatGPT，国内有哪些学术力量能抢滩？

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

Python爬虫技术第25节爬虫框架Scrapy

不知道wifi密码时，笔记本怎么连接到网络？

华硕ROG|玩家国度魔霸7Plus G713PV win11原厂系统带ASUS Recovery

Macbook换SSD硬盘备份OS、Win10双系统完全攻略

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载