浅谈Python爬虫（四）【英雄联盟人物背景故事爬取】|电子爱好者

admin管理员组
文章数量:1619183

浅谈Python爬虫（四）

英雄联盟是国内乃至全球首屈一指的MOBA游戏，深受广大玩家的喜爱。而他之所以火热的原因，主要是因为其高难度的操作性和竞技性，但是不可否认的是，有部分玩家是因为其震撼恢弘的世界观而入坑（笔者就是）。今天，我们一起看一下英雄背后的故事。

1、定位数据

首先，我们进入到英雄联盟的官网，鼠标移动到游戏资料的位置，然后依次点击联盟宇宙–>英雄，即可进入到这个页面。如图。

随便点击一个英雄的头像，即可进入详细页面。如图。

我们需要的数据有：英雄名字（辛德拉），英雄昵称（暗黑元首），英雄定位（法师），上线时间和英雄的传记。
我们按下F12进入开发者模式，点击NetWork，按下F5刷新，点击Doc，看有没有我们需要的数据。
检查之后不难发现，Doc中并没有我们需要的数据，所以，我们转战XHR。依次点击每一个数据，发现在第二个名为index.json的里面是我们的数据，查看其URL。

然后换一个人物查看，发现他的URL是这样的。

可以发现，这两个URL只有index字段前面的一个字段不同。其实就是英雄的英文名字。我们现在的任务就是获取到所有英雄的英文名字。我们回到主界面，同样的步骤，发现数据在XHR里面的index.json里面。他的链接如下。

我们可以通过解析这个页面来获取所有英雄的英文名字，然后拼凑成每个英雄详细信息的URL，从而达到我们的目的。

2.代码编写

1、获取到英雄名字并获得所有英雄的URL
我们打开PyCharm，新建一个项目。第一步先导入我们必须的库，由于这次的数据都存在json中，所以不需要lxml库了。

import requests			# 解析网页
import pandas as pd		# 数据处理
import re				# 进行正则操作

首先，我们要获取到所有英雄的名字，把主页的index.json的response的数据复制，然后进入json数据解析网站,把数据粘贴进去，分析需要的数据所在的位置。如图。

不难发现，英雄名字在champions字段的slug字段里面，接下来，我们用代码实现这个逻辑。
代码如下。
首先定义一个获取json数据的方法。

def get_json(url):
    headers = {'User=Agent': 'Mozilla/5.0'}
    r_j = requests.get(url, headers=headers)
    return r_j.json()

然后写一个获取所有英雄链接的方法。

def get_hero_url_list(json):
    h_l = []
    for i in range(len(json['champions'])):
        h_l.append('https://yz.lol.qq/v1/zh_cn/champions/{}/index.json'.
                   format(json['champions'][i]['slug']))
    return h_l

接下来就可以开始测试，我们把主页的URL传进获取json的方法里，看输出结果。
代码如下。

if __name__ == '__main__':
    url = 'https://yz.lol.qq/v1/zh_cn/search/index.json'
    all_hero_json = get_json(url)
    print(all_hero_json)

打印输出，可以发现结果正确。然后开始获取所有英雄的链接。
代码如下。

hero_url_list = get_hero_url_list(all_hero_json)
print(hero_url_list)

打印输出，可以发现结果正确。然后开始最重要的部分，获取英雄信息部分代码的编写。
进入英雄详细页面，查看其json数据，并粘贴到json网站进行分析。如图。

笔者用红色框框圈起来的部分，就是我们需要的数据，接下来，开始写代码。
首先获取到英雄的名字（暗黑元首）。代码如下。

name = json['champion']['name']

然后英雄的别称（辛德拉）。代码如下。

other_name = json['champion']['title']

然后上线时间（2012-09-13）。代码如下。

release_date = json['champion']['release-date']

然后英雄故事。代码如下。

hero_tale = json['champion']['biography']['full']

然后英雄定位，由于英雄定位不止一个，所以我们用 / 连接多个定位。代码如下。

roles = []
for r in range(len(json['champion']['roles'])):
    roles.append(json['champion']['roles'][r]['name'])
roles = '/'.join(roles)

我们依次打印输出上面的数据，发现英雄故事里面有无效的字符

和<\/p>，所以我们用正则表达式将其替换。代码如下。

hero_tale = re.sub('<p>|<\\/p>', '', json['champion']['biography']['full'])

然后再打印输出判断，数据正确。
我们把上面的代码定义成一个方法，并返回一个DataFrame类型的数据。代码如下。

def get_hero_info(json):
    name = json['champion']['name']
    other_name = json['champion']['title']
    release_date = json['champion']['release-date']
    roles = []
    for r in range(len(json['champion']['roles'])):
        roles.append(json['champion']['roles'][r]['name'])
    roles = '/'.join(roles)
    hero_tale = re.sub('<p>|<\\/p>', '', json['champion']['biography']['full'])
    data = pd.DataFrame({'name': name,
                         'other_name': other_name,
                         'release_date': release_date,
                         'roles': roles,
                         'hero_tale': hero_tale}, index=[0])
    return data

接下来，我们测试一遍，上面的方法能否正确的给我们返回英雄信息。代码如下。

if __name__ == '__main__':
    url = 'https://yz.lol.qq/v1/zh_cn/search/index.json'
    all_hero_json = get_json(url)
    hero_url_list = get_hero_url_list(all_hero_json)
    data = get_hero_info(hero_url_list[0])

打印输出，发现数据正确。然后开始批量获取。这里笔者采取数据存储的方法是先定义一个空的DataFrame数据，然后每获取一个英雄的数据就附加进去，最后存储。方法不唯一，各位有好的方法的话可以不用这个。代码如下。

if __name__ == '__main__':
    url = 'https://yz.lol.qq/v1/zh_cn/search/index.json'
    all_hero_json = get_json(url)
    hero_url_list = get_hero_url_list(all_hero_json)
    data = get_hero_info(hero_url_list[0])
    data = pd.DataFrame(columns=['name', 'other_name', 'release_date', 'roles', 'hero_tale'])
    for i in range(len(hero_url_list)):
        hero_json = get_json(hero_url_list[i])
        hero_data = get_hero_info(hero_json)
        data = pd.concat([data, hero_data])

最后存储到本地。代码如下。

data.to_json('F://SpiderData//LOL.json', orient='records', force_ascii=False)

我们去本地打开数据文件，可以发现数据正确。
完整的代码如下。

import requests
import pandas as pd
import re


def get_json(url):
    headers = {'User=Agent': 'Mozilla/5.0'}
    r_j = requests.get(url, headers=headers)
    return r_j.json()


def get_hero_url_list(json):
    h_l = []
    for i in range(len(json['champions'])):
        h_l.append('https://yz.lol.qq/v1/zh_cn/champions/{}/index.json'.
                   format(json['champions'][i]['slug']))
    return h_l


def get_hero_info(json):
    name = json['champion']['name']
    other_name = json['champion']['title']
    release_date = json['champion']['release-date']
    roles = []
    for r in range(len(json['champion']['roles'])):
        roles.append(json['champion']['roles'][r]['name'])
    roles = '/'.join(roles)
    hero_tale = re.sub('<p>|<\\/p>', '', json['champion']['biography']['full'])
    data = pd.DataFrame({'name': name,
                         'other_name': other_name,
                         'release_date': release_date,
                         'roles': roles,
                         'hero_tale': hero_tale}, index=[0])
    return data


if __name__ == '__main__':
    url = 'https://yz.lol.qq/v1/zh_cn/search/index.json'
    all_hero_json = get_json(url)
    hero_url_list = get_hero_url_list(all_hero_json)
    data = get_hero_info(hero_url_list[0])
    data = pd.DataFrame(columns=['name', 'other_name', 'release_date', 'roles', 'hero_tale'])
    for i in range(len(hero_url_list)):
        hero_json = get_json(hero_url_list[i])
        hero_data = get_hero_info(hero_json)
        data = pd.concat([data, hero_data])
    data.to_json('F://SpiderData//LOL.json', orient='records', force_ascii=False)

3、至此，英雄联盟的数据就抓取过来了，有兴趣的小伙伴可以阅读一下英雄的背景故事，发现都很有趣。各位对代码有不同的意见或者建议的话，欢迎在文章下面留言评论或者私信我。谢谢各位的观看。

本文标签：爬虫浅谈背景英雄人物

版权声明：本文标题：浅谈Python爬虫（四）【英雄联盟人物背景故事爬取】内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1728792879a1173885.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

浅谈Python爬虫（四）【英雄联盟人物背景故事爬取】

浅谈Python爬虫（四）

1、定位数据

2.代码编写

3、至此，英雄联盟的数据就抓取过来了，有兴趣的小伙伴可以阅读一下英雄的背景故事，发现都很有趣。各位对代码有不同的意见或者建议的话，欢迎在文章下面留言评论或者私信我。谢谢各位的观看。

更多相关文章

lol服务器维护8月6日,lol英雄联盟维护后进不了游戏 8月6日lol维护后换不了输入法怎么回事...

在玩英雄联盟中遇到的问题

python简单实现抓取英雄联盟皮肤原画：老玩家都哭了！

lol服务器维护是拳头,拳头：今年将修复《英雄联盟》客户端 启动时间降到19秒...

爬虫分享(三)：多线程爬取英雄联盟皮肤图片

Python3爬虫---抓取英雄联盟的所有英雄皮肤

英雄联盟龙的传人皮肤爬虫

调整计算机的设置怎么退出,英雄联盟怎么退出调电脑音量

千图成像python_爬取英雄联盟所有皮肤图片实现千图成像！Python真强！！

英雄联盟游戏文件tcj.dll已损坏怎么办？英雄联盟游戏文件tcj.dll已损坏原因分析以及解决方法分享

用户首次登录之前必须更改密码_英雄联盟手游新手须知游玩英雄联盟手游前你必须知道的...

nodejs+puppeteer+chromium爬取异步数据页面（英雄联盟英雄资料列表页+详情页）

英雄联盟手游注册及下载教程（ios及安卓android最新最全版）

Web前端大作业——简单的学生网页作业源码 基于html css javascript仿英雄联盟LOL游戏网站

英雄联盟手游主页---rem布局

LOL弗雷尔卓德服务器维护,英雄联盟4月28日维护到几点 部分大区模式维护公告...

风靡全球的英雄联盟手游，竟然没有国服，只能教你玩国际服了...

Requests库应用实例4：网络图片的爬取与存储(以爬取英雄联盟皮肤图片为例)

ios mailto: 用邮箱发邮件_英雄联盟手游公测，安卓苹果iOS注册最新下载安装教程！...

3dmip12小时内无法注册_iPhone12如何玩英雄联盟手游？一分钟教你快速注册下载台服lol手游_3DM手游...

发表评论

推荐文章

精准电流走向分析|用笔记本电脑的供电电路描述MOS管的两大功能：开关作用和隔离功能

微软推出Designer图形图像设计软件，与Adobe Photoshop的较量？

BIOS1101 Evolutionary and Functional Biology - 2024R

APP基本测试用例

Communications link failure 解决方法 !!!

热门文章

删除文件 释放文件缓存空间

Notepad++的下载与安装教程

浏览器访问百度都经历了什么？

生产环境安装centos7系统教程（组装服务器）

计算机无法进入测试页面,为什么打印机无法打印测试页？介绍具体的多种原因及解决方法...

局域网共享打印机能连接上但不能打印

CAD无法打印的问题解决办法

RPC failed； curl 56 Recv failure: Connection was reset.

HTML5期末大作业：仿英雄联盟网站设计——仿英雄联盟LOL首页(11页) 大学生简单个人静态HTML网页设计作品 DIV布局个人介绍网页模板代码 DW学生个人网站制作成品下载

计算机无法上无线网络连接到internet,电脑连接不上无线网络,教您怎么解决电脑连接不上无线网络...

最新文章

linux deploy安装并ssh连接教程

【手把手教你树莓派3 （二）】 启动wifi模块

使用Fluxion搭建钓鱼热点破解WiFi密码

frp内网穿透教程，ssh远程连接，服务自启动

查看自己手机连接过的wifi密码

图文手把手教程--ESP32 MQTT连接阿里云生活物联网平台

海尔随身WiFi型号F231ZC刷机去控过程分享

【微信小程序控制硬件15 】 开源一个微信小程序，支持蓝牙快速配网+WiFi双控制ESP32-C3应用示范；（附带Demo）

PacketTracer模拟器物联网教程3—家庭设备无线连接方法

ESP32-C3入门教程 蓝牙篇②——基于EspBlufiForAndroid极简的Blufi配网Demo

树莓派4b设置WiFi

【一站式教程】精通ESP32：使用VSCode与PlatformIO构建FreeRTOS项目、WIFI网页智能灯控系统、蓝牙、有趣的小功能 — 从轻松入门到项目实战~

ESP32学习笔记----WiFi使用(网页控制)

使用Arduino开发ESP32:wifi基本功能使用

0. 江协科技江科大-STM32入门教程-各章节详细笔记-查阅传送门-STM32标准库开发

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

lol服务器维护是拳头,拳头：今年将修复《英雄联盟》客户端启动时间降到19秒...

Web前端大作业——简单的学生网页作业源码基于html css javascript仿英雄联盟LOL游戏网站

LOL弗雷尔卓德服务器维护,英雄联盟4月28日维护到几点部分大区模式维护公告...

删除文件释放文件缓存空间

【手把手教你树莓派3 （二）】启动wifi模块

【微信小程序控制硬件15 】开源一个微信小程序，支持蓝牙快速配网+WiFi双控制ESP32-C3应用示范；（附带Demo）

ESP32-C3入门教程蓝牙篇②——基于EspBlufiForAndroid极简的Blufi配网Demo

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载