使用爬虫框架scrapy爬取LOL英雄数据|电子爱好者

admin管理员组
文章数量:1619280

Scrapy框架实战

爬取目标：英雄联盟所有英雄的基本信息(名字，背景故事，技能名称及介绍)、下载所有英雄的皮肤并保存至本地

首先来到LOL官网首页，如图进入所有英雄的信息页面

先说一下我最开始的思路：

通过网页源代码来获取想要的数据，这也是最基本的爬取数据的方式

通过单个英雄信息的url不难发现规律，每个英雄的详情页url地址都一样，只是参数id的值不一样。

那么便可以通过在英雄信息页获取到每个英雄的id从而得到详情页地址

想象是美好的，实际操作时一直都获取不到想要的数据，获取的li标签中的值一直是“正在加载中”

最后才发现这些英雄的数据都是用过ajax请求来获取数据的，用传统的方式肯定不行

然后我换了一种思路

直接获取存储英雄信息的js文件，通过js文件来获得每一个英雄的id，然后通过拼接url来得到英雄详情页的地址

英雄详情页一样是通过ajax获取数据

获取的js文件中有我们想要的数据

英雄信息、皮肤图片地址可以直接获取

爬取代码:
lolheros_info.py

# -*- coding: utf-8 -*-
import scrapy
import json
from lolheros.items import LolherosItem

class LolherosInfoSpider(scrapy.Spider):
    name = 'lolheros_info'
    allowed_domains = ['lol.qq']
    start_urls = ['https://game.gtimg/images/lol/act/img/js/heroList/hero_list.js']

    def parse_heroinfo(self,response):
        datas = json.loads(response.body)
        hero_info = datas['hero']
        hero_nickname = hero_info['name']
        hero_realname = hero_info['title']
        hero_background = hero_info['shortBio']
        hero_skins = datas['skins']
        hero_skin_urls = []
        for hero_skin in hero_skins:
            hero_skin_url = hero_skin['mainImg']
            hero_skin_urls.append(hero_skin_url)
        hero_skills = datas['spells']
        hero_skills_str = ""
        for hero_skill in hero_skills:
            hero_skills_str += "("+str(hero_skill['name'])+":"+str(hero_skill['description']).replace('<br>','')+")"

        hero_info_list = [hero_nickname,hero_realname,hero_background,hero_skills_str]
        item = LolherosItem(hero_info_list=hero_info_list,
                            hero_skin_urls=hero_skin_urls)
        yield item

    def parse(self, response):
        datas = json.loads(response.body)
        heros_list = datas['hero']
        for hero_info in heros_list:
            hero_id = hero_info['heroId']
            heroinfo_url = "https://game.gtimg/images/lol/act/img/js/hero/"+hero_id+".js"
            request = scrapy.Request(heroinfo_url,callback=self.parse_heroinfo,dont_filter=True)
            yield request

数据处理代码:
pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy/en/latest/topics/item-pipeline.html
import xlwt
from urllib import request
import os

class LolherosPipeline(object):
    current_row = 1
    savepath = "LOL英雄信息.xls"
    book = xlwt.Workbook(encoding="utf-8", style_compression=0)
    sheet = book.add_sheet('LOL英雄信息', cell_overwrite_ok=True)
    def __init__(self):
        pass

    def open_spider(self,spider):
        print("爬取数据开始")
        self.image_path = os.path.join(os.path.dirname(os.path.dirname(__file__)),"images")
        if not os.path.exists(self.image_path):
            os.mkdir(self.image_path)


    def process_item(self, item, spider):
        hero_skin_urls = item['hero_skin_urls']
        hero_info_list = item['hero_info_list']
        print(hero_skin_urls)
        #将英雄数据保存到excel
        col = ("昵称","名字","背景故事","技能介绍")
        for i in range(0,4):
            self.sheet.write(0,i,col[i])
        for i in range(0,4):
            self.sheet.write(self.current_row,i,hero_info_list[i])
        self.current_row += 1
        self.book.save(self.savepath)
        # 下载英雄皮肤
        hero_name = hero_info_list[0]
        # 创建 英雄名的文件夹
        image_category = os.path.join(self.image_path,hero_name)
        if not os.path.exists(image_category):
            os.mkdir(image_category)
        for hero_skin_url in hero_skin_urls:
            if hero_skin_url != '':
                image_name = hero_skin_url.split('/')[-1]
                request.urlretrieve(hero_skin_url,os.path.join(image_category,image_name))
        return item

    def close_spider(self,spider):
        print("爬取数据结束")

爬取结果:

所有英雄的基本信息（保存至excel）

所有英雄的皮肤图片

本文标签：爬虫框架英雄数据 scrapy

版权声明：本文标题：使用爬虫框架scrapy爬取LOL英雄数据内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1728795087a1174089.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

lol服务器维护是拳头,拳头：今年将修复《英雄联盟》客户端启动时间降到19秒...

3小时前

《英雄联盟》新版客户端自上线以来虽然官方进行过几次修复，但仍然存在不少的BUG，客户端的启动速度和加载速度非常慢。拳头官方今天在官网发布了一篇公告，称未来六个月将会对lol客

爬虫分享(三)：多线程爬取英雄联盟皮肤图片

3小时前

爬虫分享(三)：多线程爬取皮肤 1.获取英雄数据首先进入LOL官网打开游戏资料我们先尝试用该url构建一个请求 import requestsurlhttps:lol.qqdatainfo-her

lol服务器位置峡谷之巅,lol英雄联盟峡谷之巅怎么进_峡谷之巅是什么_峡谷之巅报名需要什么段位...

3小时前

lol峡谷之巅怎么进？峡谷之巅是什么？峡谷之巅是lol中的超级专区，游戏内有着超多免费点券与金币领取和参加丰富的活动和英雄皮肤等功能，如何进入峡谷之巅服

英雄联盟龙的传人皮肤爬虫

3小时前

危莫危于任疑。宋·张商英（世上的）危险没有比任用自己怀疑的人更危险的了。 **用鼠标华开桌面创建lol文件夹 * *打开英雄联盟官网找到图片地址url(“https:game.g

lol八月那服务器有无限火力,英雄联盟无限火力8月开启时间 2021年8月无限火力时间...

3小时前

导读现在已经是7月末了，英雄联盟官方在这个月推出了比较法，比如推出了全新玩法终极宝典，体验这个新模式，玩家可以将召唤师技能替换成其他英雄技能&

python爬取英雄联盟所有皮肤价格表_利用Python协程来爬取LOL所有英雄的皮肤高清图片...

3小时前

最近有一朋友要LOL的数据进行数据分析，叫我帮他抓一下数据。突发奇想，顺便把英雄的所有皮肤下载到本地好了。 PS： 安装了LOL的伙伴图片直接在LOL文件夹里面&#x

python使用selenium爬英雄联盟王者荣耀壁纸附源码

3小时前

文章目录 LOL壁纸分析写代码王者荣耀壁纸分析写代码源码lol王者荣耀之前看到好多爬王者荣耀和英雄联盟壁纸的，现在有时间，自己也搞个玩玩记录一下，也帮助一下想要学习的

Web前端大作业——简单的学生网页作业源码基于html css javascript仿英雄联盟LOL游戏网站

3小时前

🎉精彩专栏推荐 💭文末获取联系✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 &a

【Java项目】讲讲我用Java爬虫获取LOL英雄数据与图片（附源码）_游戏数据抓取

3小时前

（1）Python所有方向的学习路线（新版） 这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点

英雄联盟提示tersafe.dll已损坏怎么办？英雄联盟提示tersafe.dll已损坏快速修复方法介绍

3小时前

英雄联盟tersafe.dll是一个帮助lol完结解决游戏时提示tersafe.dll损坏的dll文件，但是有玩家在玩这个游戏的时候提示：tersafe.dll已损坏，该怎么

英雄联盟手游主页---rem布局

3小时前

步骤 1. 创建仓库 2. 把仓库 “搬下来” 你想放到哪个文件夹，就在哪右键打开 Git Bash Here git中搬运语法：git clone 地址 （我通常使

kf.qq.lol.html,英雄联盟手游预约FAQ

3小时前

亲爱的召唤师： 你所期待已久的《英雄联盟》手游预约现已正式开启，您可按照下述FAQ指引了解和参与活动。 Q：我该如何参加手游的正式预约？ A&#

PHP LOL接口,电竞英雄联盟数据API接口 - 【赛事列表】API调用示例代码

3小时前

野子电竞数据官网改版https:www.xxe.io全新登场 import com.alibaba.fastjson.JSON; import com.alibaba.fastjson.annotation.JSONField; im

拳头服务器什么时候修复,拳头：今年将修复《英雄联盟》客户端启动时间降到19秒...

3小时前

原标题：拳头：今年将修复《英雄联盟》客户端启动时间降到19秒《英雄联盟》新版客户端自上线以来虽然官方进行过几次修复，但仍然存在不少的BUG，客户端的

Requests库应用实例4：网络图片的爬取与存储(以爬取英雄联盟皮肤图片为例)

3小时前

网络图片的爬取与存储 1.获取爬取图片的URL2.代码3.批量下载lol皮肤图片完整代码 1.获取爬取图片的URL 以艾希的源计划联合为例这个图片的URL：https:game.gtimgimageslo

【BZOJ5018】[Snoi2017]英雄联盟背包

3小时前

【BZOJ5018】[Snoi2017]英雄联盟 Description 正在上大学的小皮球热爱英雄联盟这款游戏，而且打的很菜，被网友们戏称为「小学生」。现在，小皮球终于受不

(高仿英雄联盟游戏网页制作作业) 英雄联盟LOL游戏HTML网页设计模板简单学生网页设计静态HTML CSS网站制作成品

3小时前

📂文章目录一、👨‍🎓网站题目二、✍️网站描述三、📚网站介绍四、🌐网站效果五、🔧 网站代码&am

云顶之弈服务器维护多长时间,英雄联盟3.17更新维护时间介绍云顶之弈什么时候可以玩_18183云顶之弈专区...

3小时前

英雄联盟更新结束可以玩了吗?大家知道，今天凌晨，英雄联盟官方发布了维护公告，说是从凌晨2点到中午12点维护，然后大家进不了排位赛，

无法往开启kerberos的zookeeper上注册服务_英雄联盟手游拳头账号有几个区？lol手游韩国账号怎么注册？...

3小时前

英雄联盟手游从10月28日正式开启全球范围多服务器的同时公测，本次公测开放了日服、韩服、东南亚服、美服、欧服等地区的服务器，并且账号信息互通，也就是都处于统一的一个拳头账号名

3dmip12小时内无法注册_iPhone12如何玩英雄联盟手游？一分钟教你快速注册下载台服lol手游_3DM手游...

3小时前

之前iPhone12发布会上，官方展示用iPhone12玩英雄联盟手游的画面，相信让许多人记忆犹新。IP新机加上英雄联盟手游的组合，看得许多果粉玩家都想赶紧拿新机玩游戏。而最

电子爱好者 - 最新技术资讯及电子产品介绍！

使用爬虫框架scrapy爬取LOL英雄数据

Scrapy框架实战

爬取结果:

更多相关文章

lol服务器维护是拳头,拳头：今年将修复《英雄联盟》客户端 启动时间降到19秒...

爬虫分享(三)：多线程爬取英雄联盟皮肤图片

lol服务器位置峡谷之巅,lol英雄联盟峡谷之巅怎么进_峡谷之巅是什么_峡谷之巅报名需要什么段位...

英雄联盟龙的传人皮肤爬虫

lol八月那服务器有无限火力,英雄联盟无限火力8月开启时间 2021年8月无限火力时间...

python爬取英雄联盟所有皮肤价格表_利用Python协程来爬取LOL所有英雄的皮肤高清图片...

python使用selenium爬英雄联盟王者荣耀壁纸 附源码

Web前端大作业——简单的学生网页作业源码 基于html css javascript仿英雄联盟LOL游戏网站

【Java项目】讲讲我用Java爬虫获取LOL英雄数据与图片（附源码）_游戏数据抓取

英雄联盟提示tersafe.dll已损坏怎么办？英雄联盟提示tersafe.dll已损坏快速修复方法介绍

英雄联盟手游主页---rem布局

kf.qq.lol.html,英雄联盟手游预约FAQ

PHP LOL接口,电竞英雄联盟数据API接口 - 【赛事列表】API调用示例代码

拳头服务器什么时候修复,拳头：今年将修复《英雄联盟》客户端 启动时间降到19秒...

Requests库应用实例4：网络图片的爬取与存储(以爬取英雄联盟皮肤图片为例)

【BZOJ5018】[Snoi2017]英雄联盟 背包

(高仿英雄联盟游戏网页制作作业) 英雄联盟LOL游戏HTML网页设计模板 简单学生网页设计 静态HTML CSS网站制作成品

云顶之弈服务器维护多长时间,英雄联盟3.17更新维护时间介绍 云顶之弈什么时候可以玩_18183云顶之弈专区...

无法往开启kerberos的zookeeper上注册服务_英雄联盟手游拳头账号有几个区？lol手游韩国账号怎么注册？...

3dmip12小时内无法注册_iPhone12如何玩英雄联盟手游？一分钟教你快速注册下载台服lol手游_3DM手游...

发表评论

推荐文章

linux下使用迅雷的完美办法（网络版免费），其他下载工具

机箱-网卡-声卡-显卡-显示器

ssm婚纱摄影管理系统的设计+1.2w字论文+免费调试

计算机主机什么硬件组成,一台计算机电脑由什么组成,电脑的基础硬件有哪些！-电脑自学网...

docker容器外访问报错curl: (56) Recv failure: Connection reset by peer

热门文章

Linux设置开机自启动奇安信可信浏览器，并配置默认页面

Corporate and International Finance (N1563) Seminar 6Java

NeMo Guardrails 大模型安全防护：这个框架牛逼，不会像强化学习 指令对齐限制灵活性死板回答，也不会像提示词约束容易被遗忘和清理

Win10添加网络打印机后无法打印的解决方法

html实现自动打开微信,微信自动跳转第三方浏览器指定页面的实现方式

英雄联盟页面

【无线安全实践入门】破解WiFi密码的多个方法

使用Arduino开发ESP32（03）：WiFi基本功能使用

sqlserver 2008 r2 直接下载地址，可用迅雷下载

《复仇者联盟2：奥创纪元》720高清迅雷下载

最新文章

DedeCMS添加半迅雷化[迅雷下载专用链接]

OpenWRT路由wifi迅雷下载 断线无法连接问题解决

电影《志 愿 军2存亡之战》百度下载云资源[MKV5.68GB]迅雷磁力完整版

NAS安装迅雷远程下载

变形金刚3：月黑之时1280超清迅雷下载

C#调用迅雷ThunderAgentLib.dll批量添加下载任务

【最新】白piao迅雷的下载速度(迅雷11亲测好用）

迅雷下载每天会有限制

删除设备和驱动器中的迅雷下载、百度网盘的图标(win10、win11可用)

乡村爱情圆舞曲全集高清迅雷下载

如何使用迅雷下载不支持断点续借的资源

利用python+迅雷批量下载视频

VC++调用迅雷下载文件

迅雷下载androidsdk的各种版本

转：用迅雷下载Android SDK全系列

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

lol服务器维护是拳头,拳头：今年将修复《英雄联盟》客户端启动时间降到19秒...

python使用selenium爬英雄联盟王者荣耀壁纸附源码

Web前端大作业——简单的学生网页作业源码基于html css javascript仿英雄联盟LOL游戏网站

拳头服务器什么时候修复,拳头：今年将修复《英雄联盟》客户端启动时间降到19秒...

【BZOJ5018】[Snoi2017]英雄联盟背包

(高仿英雄联盟游戏网页制作作业) 英雄联盟LOL游戏HTML网页设计模板简单学生网页设计静态HTML CSS网站制作成品

云顶之弈服务器维护多长时间,英雄联盟3.17更新维护时间介绍云顶之弈什么时候可以玩_18183云顶之弈专区...

NeMo Guardrails 大模型安全防护：这个框架牛逼，不会像强化学习指令对齐限制灵活性死板回答，也不会像提示词约束容易被遗忘和清理

OpenWRT路由wifi迅雷下载断线无法连接问题解决

电影《志愿军2存亡之战》百度下载云资源[MKV5.68GB]迅雷磁力完整版

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载