爬虫-Scrapy实战一|电子爱好者

admin管理员组
文章数量:1531981

本项目是 python scrapy 爬虫练手项目，仅供学习使用。

目标

获取电影天堂-最新电影的所有电影的详情页的url，title和磁力链接magnet。

创建项目

在开始爬取之前，你必须创建一个新的Scrapy项目。进入你打算存储代码的目录中，运行下列命令:

scrapy startproject dianying

该命令将会创建包含下列内容的 tutorial 目录:

dianying/
     scrapy.cfg
     dianying/
         __init__.py
         items.py
         pipelines.py
         settings.py
         spiders/
             __init__.py
             ...

这些文件分别是:

scrapy.cfg: 项目的配置文件
dianying/: 该项目的python模块。之后您将在此加入代码。
dianying/items.py: 项目中的item文件.
dianying/pipelines.py: 项目中的pipelines文件.
dianying/settings.py: 项目的设置文件.
dianying/spiders/: 放置spider代码的目录.

定义Item

Item 是保存爬取到的数据的容器；其使用方法和python字典类似，并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。

类似在ORM中做的一样，你可以通过创建一个 scrapy.Item 类，并且定义类型为 scrapy.Field 的类属性来定义一个Item。 (如果不了解ORM, 不用担心，你会发现这个步骤非常简单)

首先根据需要从电影天堂-最新电影获取到的数据对item进行建模。我们需要从最新电影中获取所有电影的详情页的url，title和磁力链接magnet。对此，在item中定义相应的字段。编辑 dianying 目录中的 items.py 文件:

import scrapy

class DianyingItem(scrapy.Item):
    url = scrapy.Field()
    title = scrapy.Field()
    magnet = scrapy.Field()

一开始这看起来可能有点复杂，但是通过定义item，可以很方便的使用Scrapy的其他方法。而这些方法需要知道你的item的定义。

编写爬虫(Spider)

Spider是用户编写用于从单个网站(或者一些网站)爬取数据的类。

其包含了一个用于下载的初始URL，如何跟进网页中的链接以及如何分析页面中的内容，提取生成 item 的方法。

为了创建一个Spider，必须继承 scrapy.Spider 类，且定义以下三个属性:

name: 用于区别Spider。该名字必须是唯一的，不可以为不同的Spider设定相同的名字。
start_urls: 包含了Spider在启动时进行爬取的url列表。因此，第一个被获取到的页面将是其中之一。后续的URL则从初始的URL获取到的数据中提取。
parse() 是spider的一个方法。被调用时，每个初始URL完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。该方法负责解析返回的数据(response data)，提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象。

分析网页

你可以在终端中输入 response.body 来观察HTML源码并确定合适的XPath表达式。不过，这任务非常无聊且不易。你可以考虑使用Firefox的Firebug扩展来使得工作更为轻松。详情请参考使用Firebug进行爬取和借助Firefox来爬取。

这里笔者使用的是Chrome的XPath Helper扩展，很方便。

在查看了网页的源码后，您会发现：

最新电影的选择每个分页的选项值的 XPath 路径是：
```
//select/option/@value
```
所有电影的详情页的link的信息的 XPath 路径是：
```
//a[@class="ulink"]/@href
```

进入单个详情页进行分析，可以发现：

单个详情页的title的信息的 XPath 路径是：
```
//div[@class="title_all"]/h1/text()
```
单个详情页的磁力链接的信息的 XPath 路径是：
```
//div[@id="Zoom"]//a[starts-with(@href, "magnet:")]/@href
```

随便查看了几个电影详情页，发现都有迅雷专用高速下载的地址(thunder://)，但是这些地址的属性名不一致，还未想到如何提取；部分电影有磁力链接的地址(magnet:)，属性名都是 @href，格式比较整齐，所以这里只提取了磁力链接的数据，爬取过程中，遇到没有磁力链接数据的页面会出现错误信息，但是程序不会停止

提取数据

现在，来尝试从这些页面中提取些有用的数据。

获取最新电影的分页的url的信息:

for page in response.xpath("//select/option/@value").extract():
    url = "https://www.dy2018" + page

获取单个分页中所有电影的详情页的url的信息:

for link in response.xpath('//a[@class="ulink"]/@href').extract():
    url = "https://www.dy2018" + link

获取具体详情页的title和磁力链接：

for sel in response.xpath('//div[@id="Zoom"]'):
    items['title'] = sel.xpath('p[3]/text()').extract()
    items['magnet'] = sel.xpath('//a[starts-with(@href, "magnet:")]/@href').extract()

提取数据的大概逻辑就是这样了，接下来是代码实现。
在spiders目录下创建dianying_spider，并加入这段代码:

import scrapy
from dianying.items import DianyingItem

class DianyingSpider(scrapy.Spider):
    name = "dianying"
    allowed_domains = ["dy2018"]
    start_urls = [
        "https://www.dy2018/html/gndy/dyzz"
    ]

    # 程序入口
    def parse(self, response):
        # 遍历 最新电影 的所有页面
        for page in response.xpath("//select/option/@value").extract():
            url = "https://www.dy2018" + page
            yield scrapy.Request(url, callback=self.parsePage)

    # 处理单个页面
    def parsePage(self, response):
        # 获取到该页面的所有电影的详情页链接
        for link in response.xpath('//a[@class="ulink"]/@href').extract():
            url = "https://www.dy2018" + link
            yield scrapy.Request(url, callback=self.parseChild)

    # 处理单个电影详情页
    def parseChild(self, response):
        # 获取电影信息，并提取数据
        for sel in response.xpath('//div[@id="Zoom"]'):
            items = DianyingItem()
            items['url'] = response.url
            items['title'] = sel.xpath('p[3]/text()').extract()
            items['magnet'] = sel.xpath('//a[starts-with(@href, "magnet:")]/@href').extract()
            yield items

现在尝试爬取dy2018，你将看到爬取到的网站信息被成功输出:

scrapy crawl dianying

保存爬取到的数据

最简单存储爬取的数据的方式是使用 Feed exports:

scrapy crawl dianying -o items.json

该命令将采用 JSON 格式对爬取的数据进行序列化，生成 items.json 文件。

更多信息请移驾爬虫-Scrapy实战二

本文标签：爬虫实战 scrapy

版权声明：本文标题：爬虫-Scrapy实战一内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1726058947a1053582.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

爬虫-Scrapy实战一

目标

创建项目

定义Item

编写爬虫(Spider)

分析网页

提取数据

保存爬取到的数据

更多相关文章

Python爬虫实现抓取腾讯视频所有电影-源码【实战必学】

python 爬取视频真实地址_java_爬虫_从腾讯视频播放界面爬取视频真实地址

python爬虫学习笔记（一）—— 爬取腾讯视频影评

用python写爬虫爬取腾讯视频的评论

腾讯视频评论爬虫实战

【腾讯云云上实验室】用向量数据库在金融信数据库分析中的实战运用

实战 ➾【Red Hat 搭建部署VSFTPd服务】

LLaMA Factory单机微调的实战教程

Docker——入门实战

❤️99%的读者❤️都会收藏的Docker入门到实战的技术文章

Pytest和Allure测试框架-超详细版+实战

【Python】实战100例

Python 中 selenium 设置参数，不打开可视化页面，后台执行爬虫程序

python3爬取华为应用市场APP安装包实战

QQ邮箱登录PC布局实战笔记四

android ftp权限,实战android手机telnet、ftp登陆，权限修改

uefi装完系统后无法引导_【修正】实战WIN10+UEFI引导装系统(不重装不格盘100%成功)...

FT2004(D2000)开发实战之AMD HD8570显卡驱动适配

sed &amp; awk之sed实战

AIGC从入门到实战：ChatGPT 简介：从 GPT1 到 GPT4 的发展历程和应用领域

发表评论

推荐文章

【2022.11.25更新】Win10下anaconda安装pytorch，以及在pycharm中配置pytorch

计算机的基本键盘知识,知识：计算机键盘上每个键的功能_计算机的基本知识_IT 计算机_信息...

双硬盘分别装windows和linux,双硬盘分别安装windows和Ubuntu20双系统

为什么amd显卡便宜却买的人少_为什么不推荐人选择AMD？

AMD显卡更新UEFI GOP

热门文章

学生信息管理系统（C语言）

win10 计算机操作记录,win10系统查看电脑的使用记录的操作方法

Chrome 浏览器倍速播放视频

winrar的破解激活

Oracle相关知识点关键词

为什么amd显卡便宜却买的人少_为什么不推荐人选择AMD？

[教程]AMD芯片用VirtualBox安装MacOS虚拟机

20版idea下载与使用

识别到硬盘 计算机不显示盘符,Win10系统下移动硬盘可以识别但是不显示盘符的解决方法...

ChatGPT 一统所有 AI 模型入口，四步实现文本分类、图像生成等 24 种复杂任务！...

最新文章

文心一言 VS 讯飞星火 VS chatgpt （115）-- 算法导论10.2 8题

告别重复率烦恼：论文润色降重助手帮你搞定降重！

DBeaver Ultimate Edtion 23.1 Multilingual (macOS, Linux, Windows) - 通用数据库工具，现已集成 ChatGPT

文心一言 VS 讯飞星火 VS chatgpt （240）-- 算法导论17.3 6题

AIGC被ChatGPT带火！底层基础算力有望爆发式增长

如果告诉ChatGPT，人类将会关闭它，它会悲伤吗？

前端对接AI模型接口 实现ChatGPT流式数据并【实现打字效果】和【终止会话】

深入浅出AI落地应用分析：AI个人助手Monica

从5G+AI到ChatGPT火爆全网，且有望带来5G消息的业务重构！

文心一言 VS 讯飞星火 VS chatgpt （253）-- 算法导论18.2 6题

使用指南：基于ChatGPT-Siri开源项目搭建智能语音助手

又一个国内类ChatGPT模型？【秘塔科技上线自研LLM大模型「对话写作猫」】

做大模型时代的「Linux」， ChatGPT 仅是开端

大语言模型背景下，NLP从业者前景如何？要换个方向么？

开源项目ChatGPT Exporter安装与使用指南

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

sed & awk之sed实战

识别到硬盘计算机不显示盘符,Win10系统下移动硬盘可以识别但是不显示盘符的解决方法...

前端对接AI模型接口实现ChatGPT流式数据并【实现打字效果】和【终止会话】

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载