admin管理员组

文章数量:1619284

部署scrapy

在命令行中输入:

scrapy startproject lolskinSpider
cd lolskinSpider
scrapy gensipder lolskin lol.qq

然后进入文件夹开始构造任务

设置scrapy

首先要分析爬取的网站,观察英雄联盟官网 英雄联盟游戏资料,利用scrapy shell

scrapy shell "https://lol.qq/data/info-heros.shtml"

hero=response.xpath('//*[@]/li[1]/a/@title')
hero

发现结果为空值,因此该网站可能采用xhr异步渲染,再次刷新网站,我们发现:


在preview中,我们得知将需要hero下的heroId来跳转到对应的英雄界面,在英雄界面中,我们需要skins下的皮肤名称name和皮肤下载链接mainImg

设置items.py

打开items.py,我们需要爬取两类数据,一是皮肤名称,二是皮肤下载链接,所以:

import scrapy

class LolskinspiderItem(scrapy.Item):
    #图片名称
    name=scrapy.Field()
    #图片下载地址
    img_url=scrapy.Field()

设置lolskin.py

这是我们的主要文件,从js文件的request.url中得知我们将要爬取的网址,因此在这里allowed_domain将不再需要。分析可得,每一个英雄的网址的区别就是最后的数字,数字对应每一个英雄的ID。

import scrapy
from json import loads
from ..items import LolskinspiderItem

class LolskinSpider(scrapy

本文标签: 皮肤英雄联盟scrapy