2. 爬取网站实训图片并下载|电子爱好者

admin管理员组
文章数量:1606556

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
1.任务描述
2.相关知识
- items.py
- pipelines.py
- settings.py
- xpath匹配
- 代码编写过程
3.编程要求
4.测试说明
5.笔者答案
- 通过截图
总结

前言

Scrapy爬虫之网站图片爬取
2. 爬取网站实训图片并下载

提示：以下是本篇文章正文内容，下面案例可供参考

1.任务描述

本关任务：上一关爬取的是图片链接，本关需要更进一步，将图片下载下来并保存到根目录下的images文件夹中（不存在需新建），并且根据提取的信息对图片进行命名。

2.相关知识

为了完成本关任务，你需要掌握：Scrapy框架的组成。

第一关我们只接触了Scrapy框架的冰山一角，现在我们要开始学习它的整体架构。

下图中文件都是通过命令scrapy startproject 项目文件名和scrapy genspider 爬虫文件名自动生成的爬虫框架文件。生成命令第一关有详细介绍。

对于middlewares.py中间件文件我们暂时用不到，在此不予介绍。/ImgProject/ImgProject/spiders目录下的imgspier.py文件是我们的爬虫主程序，它的生成与使用我们在第一关有接触，重点介绍下面三个文件。

items.py；
pipelines.py；
settings.py。

items.py

设置数据存储模板，用于结构化数据。即：用来存储你从网页中xpath下来的数据。格式如下：

class ImgprojectItem(scrapy.Item):
    img_urls = scrapy.Field() #保存图片链接
    images = scrapy.Field()   #保存图片名字

pipelines.py

数据处理行为。即：设置item里数据的存储方式。

示例如下：

class ImgprojectPipeline(object):
    def process_item(self, item, spider):
        dir_path ='{}'.format(settings.IMAGES_STORE)  #文件夹路径：从配置文件settings中导入定义好的路径
        if not os.path.exists(dir_path):
            os.makedirs(dir_path)
        name = item['images']
        img_url = item['img_urls']
        img_path = dir_path +'/'+ name +'.jpg'  #图片的最终存储路径
        img = requests.get(img_url,headers=settings.DEFAULT_REQUEST_HEADERS)  #对图片的url发出请求，准备下载
        with open(img_path,'wb')as file:  #使用wb方式保存图片
            file.write(img.content)

settings.py

配置文件，如：递归的层数、并发数，延迟下载等。

ITEM_PIPELINES里设置了pipelines文件中类的运行顺序，后面跟的数值范围是0-1000，数字越小越优先。此处只有一个类，后面的数字便不做要求，在0-1000的范围内便可。
IMAGES_STORE设置了图片存放位置，在根目录的/images文件夹下。
DOWNLOAD_DELAY设置了爬虫下载延迟的时间，防止爬取太快被网站拒绝访问。

ITEM_PIPELINES = {
    'ImgProject.pipelines.ImgprojectPipeline': 300,
}
IMAGES_STORE='/images'
DOWNLOAD_DELAY = 0.3

xpath匹配

在我们的爬虫里，用了xpath来提取html里的标签和内容，在这里我将用例子说明xpath的用法。
首先，我们要分析网页源代码，找出我们要获取的数据的位置，如下图红框部分便是图片的部分url链接，我们的任务就是把它提取出来。

通过观察我们发现，它是class="box"的div下的a标签下的img的src属性的值，我们要得到它，写法如下：

img_srcs = response.xpath('//div[@class='box']/div/a/img/@src').extract()

其中//代表相对路径，[@class="box"]指明了div的class名（选取div时要选有代表性的，能定位到你需要的数据），我们便可以在网页的源码中定位到所有网页图片相似的位置，通过@我们可以获取src属性的值，.extract()返回含有网页图片链接信息的数组。

代码编写过程

首先在settings.py中设置下载通道，下载路径以及下载参数（默认给出settings.py文件，你只需要完成下面的几个过程）；
在items.py设置需要用到的数据，将图片的完整链接放入image_urls字段，名字放入images字段；
在主爬虫程序imgspier.py中，因为会用到item存放数据，所以要在开头引入items.py文件中的ImgprojectItem类，from ImgProject.items import ImgprojectItem，被引入的类用之前要实例化一下item = ImgprojectItem()。

xpath抓取到需要的数据，通过yield返回item，传递到pipeline.py文件中处理这些从网页获取的数据。提取数字作为图片的名称，如下图所示。

 def parse(self, response):
       img_srcs = response.xpath('//div[@class='box']/div/a/img/@src').extract()  #匹配到图片的部分链接
       for img_src in img_srcs:  #for循环遍历列表
             name = img_src.split('/')[-1].split('.')[0]    #提取图片名字
           item = ImgprojectItem()  #实例化类
           item['img_urls'] = "http://127.0.0.1" + img_src  #把图片链接拼贴完整放到img_urls中
           item['images'] = name  #把图片名字放到images中
           yield item  #把得到的item返回到pipelines.py中

因为在pipelines.py中用到了settings里的设置，所以在开头需要导入它from ImgProject import
settings。还涉及到了文件的读写操作，所以还要导入import os模块。根据你所需要的模块在文件开头进行导入，不然会报错；
以上四个文件完成后，便可运行爬虫。

3.编程要求

首先，通过审查元素,观察图片链接的代码规律；然后，点击代码文件旁边的三角符号，如下图所示，分别选择items.py、pipelines.py和主爬虫imgspier.py三个文件，补充 Begin-End 区间的代码，最终能成功将网站的图片下载到images文件夹，并且将图片命名为对应的数字。

4.测试说明

代码完成后点击测评，当评测出现 Django 启动失败时，重新评测即可。爬虫运行完成后，会在根目录下生成images文件夹，在本平台进入命令行，找到相应目录：cd /images，通过命令ls，可以查看images文件夹的内容，如下图所示。

预期输出：

爬取成功

5.笔者答案

imgspier.py

#-*- coding: utf-8 -*-
import scrapy
from ImgProject.items import ImgprojectItem

class ImgspierSpider(scrapy.Spider):
   name = 'imgspier'
   allowed_domains = ['127.0.0.1']
   start_urls = ['http://127.0.0.1:8080/imgs/']

   def parse(self, response):
       #********** Begin **********#
       img_srcs = response.xpath('//div/a/img/@src').extract()
       # img_srcs = response.xpath('//div[@class='box']/div/a/img/@src').extract()
       for img_src in img_srcs:  #for循环遍历列表
           name=img_src.split('/')[-1].split('.')[0]    #提取图片名字
           item=ImgprojectItem()  #实例化类
           item['img_urls']="http://127.0.0.1:8080"+img_src  #把图片链接拼贴完整放到img_urls中
           #127.0.0.1后加:8080
           item['images']=name  #把图片名字放到images中
           yield item  #把得到的item返回到pipelines.py中
       #********** End **********#

items.py

import scrapy

class ImgprojectItem(scrapy.Item):
   #********** Begin **********#
   img_urls=scrapy.Field() #保存图片链接   
   images=scrapy.Field()  #保存图片名字      
   #********** End **********#

pipelines.py

import os,requests
from ImgProject import settings

class ImgprojectPipeline(object):
   def process_item(self, item, spider):
       #********** Begin **********#
       dir_path='{}'.format(settings.IMAGES_STORE)  #文件夹路径：从配置文件settings中导入定义好的路径
       if not os.path.exists(dir_path):
           os.makedirs(dir_path)
       name=item['images']
       img_url=item['img_urls']
       img_path=dir_path+'/'+name+'.jpg'  #图片的最终存储路径
       img=requests.get(img_url,headers=settings.DEFAULT_REQUEST_HEADERS)  #对图片的url发出请求，准备下载
       with open(img_path,'wb') as f:  #使用wb方式保存图片
           f.write(img.content)
       #********** End **********#

通过截图

总结

爬取网站实训图片并下载

本文标签：实训图片网站

版权声明：本文标题：2. 爬取网站实训图片并下载内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1728500341a1161099.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

2. 爬取网站实训图片并下载

文章目录

前言

1.任务描述

2.相关知识

items.py

pipelines.py

settings.py

xpath匹配

代码编写过程

3.编程要求

4.测试说明

5.笔者答案

通过截图

总结

更多相关文章

IE浏览器提示网站还原错误

分级阅读网站阅读网站.阅读系统的设计与实现

计算机应用基础(本)实训任务1,计算机应用基础(本)——实训任务1-2.docx

如何让ChatGPT生成图片？

ChatGPT聊天机器人如何发图片？？？？

「网站服务器硬件配置」网站服务器配置要求

成品app直播源码，设置图片圆角和圆形图片

Windows server 2012 R2 搭建网站

在阿里云服务器上发布网站

阿里云快速网站搭建详解

高效率的网站打开速度优化方法

实现全站 HTTPS ,为什么国内网站总是那么slow&amp;&amp;low呀！

怎么将CAD中的画笔图片插入到图纸中

怎么在线翻译图片上的文字？给你能够“解码”外语图片的工具

扫描的PDF转Word工具实践（主要ORC识别图片功能转换）

PDF转Word图片转Word教程（附工具地址）

java实现图片、word、pdf等多文件融合到一个pdf（word转pdf）

word转pdf时图片模糊分辨率不高解决方案

免费又实用的图标网站和开源镜像站（Linux系统） Kali 镜像下载

下载免费商用字体，就上这5个网站。

发表评论

推荐文章

poj3352——Road Construction（双连通分量）

winPE盘制作

Windows Phone 7开发版手机即将于下月发行

手机操作系统盘点

android 7.0 官方网址,Android7.0下载地址 安卓7.0系统手机下载安装教程

热门文章

论文笔记Multi-Modal Knowledge Graph Construction and Application: A Survey

Windows环境安装Docker经验分享

插入USB麦克风电脑没有声音了的解决方法

HaiSi（海思）固件默认uroot

Linux操作系统与微信Windows系统的安全性区别？

计算机固态硬盘与机械硬盘的区别是什么,电脑固态硬盘与机械硬盘的区别是什么，应该如何选择...

【Java代码审计】代码审计的方法及常用工具

315曝光钓鱼WiFi如何不做那条上钩的鱼?

计算机组装与系统安装,电脑组装后如何安装系统

需要打开密码才能解压的压缩包如何解决

最新文章

跳过密码打开zip压缩包，zip压缩包不能打印复制怎么办？

python跳过短信验证码_python接口自动化4-绕过验证码登录（cookie）

adb绕过夜神模拟器锁屏密码

华为手机USB调试调过登录

破解360手机助手的锁定功能

计算机系统盘没用的东西怎么删除,怎么手工删除C盘无用的文件

解决打开Chrome出现 输入密码以解锁您的登录密钥环

iPhone手机总是弹出输入ID密码怎么办？

华为android密码是什么格式的,华为手机怎么给相册设置独立的密码?

jeecg-boot中实现跳过登录验证访问其他vue页面

苹果手机Apple ID 忘记密码 ，频繁跳出登录iCloud如何关闭

七种方法绕过安卓手机锁屏

需要打开密码才能解压的压缩包如何解决

在计算机上知道手机密码,不知道密码查手机通话记录：傻瓜式教程

python破解手机锁屏密码_手机屏幕解锁模式

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

实现全站 HTTPS ,为什么国内网站总是那么slow&&low呀！

android 7.0 官方网址,Android7.0下载地址安卓7.0系统手机下载安装教程

解决打开Chrome出现输入密码以解锁您的登录密钥环

苹果手机Apple ID 忘记密码，频繁跳出登录iCloud如何关闭

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载