爬取实例三：爬取lol英雄联盟全阵容皮肤和爬王者荣耀全阵容皮肤|电子爱好者

admin管理员组
文章数量:1619292

1、结果展示

将每一个英雄保存一个文件夹下，把他所有的皮肤保存在他对应的文件夹下(自动生成的你运行爬虫就好了)

2、代码解释

2.1用到第三方的模块

有些自带，有些需要你自己安装，pip install 模块名就好了，如果有问题可以看我的第三方库导入大全那篇文章，有详细解释

import requests # 请求数据
import os # 操作系统模块，用于创建文件夹
import jsonpath # 用于提取json类型的数据
import re # 正则表达式模块，用于获取皮肤名称
import time # 时间模块，防止爬的太快被封id
import random # 随机数模块，配合time使用

2.2请求头以及主页面js地址

user-agent：故名思意，用户代理，你设置了这个相当于把爬虫程序伪装成浏览器，如果不设置，服务器就会发现你是爬虫，这是最基本的反爬手段之一
hero_list_url：这是通过分析lol官网页面从中提取hero_id的url，如果想学页面分析可以留言我在写一篇分析页面的文章，这个主要教如何爬取

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36'
           }
hero_list_url = 'https://game.gtimg/images/lol/act/img/js/heroList/hero_list.js'

2.3获得详情页面的函数

写一个获得hero_id的函数找到每一个英雄的详情url为下载做准备，这里我用了列表推导式作为返回值将所有英雄的详情url返回出来方便下载函数调用

def get_id(url):
    response = requests.get(url, headers=headers).json()
    hero_Id = jsonpath.jsonpath(response, '$..heroId')
    time.sleep(random.randint(1, 3))
    base_url = 'http://game.gtimg/images/lol/act/img/js/hero/{}.js'
    return [base_url.format(every_id) for every_id in hero_Id]

2.4定义函数一个提取及下载数据

我直接再代码中进行解释

def get_skin(li1):
      for url in li1: # 遍历列表推导式
        response = requests.get(url, headers=headers)
        result = response.json()['skins'] # 得到关于皮肤的所有信息
        skin_name = [] # 设置空列表用来存储提取到的皮肤名
        skin_url = [] # 设置空列表用来存储提取到的皮肤下载地址
        time.sleep(random.randint(1, 3)) # 随机休眠1到3秒防止被封
        for skin_json in result:
            skin_name.append(skin_json['name']) # 将英雄名保存到上面的空列表之中
            skin_url.append(skin_json['mainImg']) # 将英雄下载地址保存到上面的空列表之中
        hero_folder = 'allhero/' + response.json()['hero']['name'] + response.json()['hero']['title']
        #设置保存的路径
        if not os.path.exists(hero_folder):
            os.mkdir(hero_folder)
        # 判断路径是否存在不存在就创建一个
        for i in range(len(skin_url)):
            if not skin_url[i]=='':
                image_path = hero_folder +'/' + re.findall('\w+',skin_name[i])[0] + '.png' # 具体设置图片的下载路径以及名称和格式
                with open(image_path,'wb')as file:
                    print('正在下载{}'.format(skin_name[i])) # 打印下载进度
                    file.write(requests.get(skin_url[i],headers=headers).content) #下载图片

3、完整代码

如果遇到问题可以留言，我看到了就会解答，喜欢的话可以关注我呀，我基本每天都会更新有趣的东西

import requests
import os
import jsonpath
import re
import time
import random

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36'
}


def get_id(url):
    response = requests.get(url, headers=headers).json()
    hero_Id = jsonpath.jsonpath(response, '$..heroId')
    time.sleep(random.randint(1, 3))
    base_url = 'http://game.gtimg/images/lol/act/img/js/hero/{}.js'
    return [base_url.format(every_id) for every_id in hero_Id]


def get_skin(li1):
    for url in li1:
        response = requests.get(url, headers=headers)
        result = response.json()['skins']
        skin_name = []
        skin_url = []
        time.sleep(random.randint(1, 3))
        for skin_json in result:
            skin_name.append(skin_json['name'])
            skin_url.append(skin_json['mainImg'])
        hero_folder = 'allhero/' + response.json()['hero']['name'] + response.json()['hero']['title']
        if not os.path.exists(hero_folder):
            os.mkdir(hero_folder)
        for i in range(len(skin_url)):
            if not skin_url[i] == '':
                image_path = hero_folder + '/' + re.findall('\w+', skin_name[i])[0] + '.png'
                with open(image_path, 'wb')as file:
                    print('正在下载{}'.format(skin_name[i]))
                    file.write(requests.get(skin_url[i], headers=headers).content)


if __name__ == '__main__':
    hero_list_url = 'https://game.gtimg/images/lol/act/img/js/heroList/hero_list.js'
    li1 = get_id(hero_list_url)
    get_skin(li1)

4、王者荣耀

会遇到英雄名乱码，以及皮肤名乱码等问题，通过selenium获得网页解决，爬取思路很简单，附上结果截图以及源码，为啥我写的博客这么少人看呢

# url = 'https://game.gtimg/images/yxzj/img201606/skin/hero-info/150/150-bigskin-6.jpg'
# url = 'https://game.gtimg/images/yxzj/img201606/heroimg/167/167-smallskin-8.jpg'
# url = 'https:game.gtimg/images/yxzj/img201606/skin/hero-info/167/167-bigskin-8.jpg'
# url = 'https:game.gtimg/images/yxzj/img201606/skin/hero-info/506/506-bigskin-2.jpg'
# https://pvp.qq/web201605/herodetail/167.shtml
# 获得英雄名称以及英雄id
import requests,re,os,random,time
from lxml import etree
from selenium import webdriver

option = webdriver.ChromeOptions()
option.add_argument('headless')
driver = webdriver.Chrome(options=option)

list = ['Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1',
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',
        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11',
        'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0',
        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
        'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
        'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko',
        'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_0_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.67 Safari/537.36']
user_agent = random.choice(list)

header = {
    'User-Agent': user_agent,
    'Referer': 'https://pvp.qq/web201605/herolist.shtml'
}

driver.get('https://pvp.qq/web201605/herolist.shtml')
res = driver.page_source

dom1 = etree.HTML(res)
every_id = dom1.xpath('//ul[@class="herolist clearfix"]/li/a/@href')
every_name = dom1.xpath('//ul[@class="herolist clearfix"]/li/a//@alt')
for init_id,name in zip(every_id,every_name):
    id = re.findall('herodetail/(.*?).shtml',init_id)[0]
    detail_url = f'https://pvp.qq/web201605/herodetail/{id}.shtml'
    driver.get(detail_url)
    result2 = driver.page_source
    dom2 = etree.HTML(result2)
    skin_name = dom2.xpath('//div[@class="pic-pf"]/ul/@data-imgname')[0]
    ervery_skin = skin_name.split('|')
    hero_folder = os.getcwd() + '/王者荣耀/' + name
    if not os.path.exists(hero_folder):
        os.mkdir(hero_folder)
    for i,skin_na in enumerate(ervery_skin):
        # pic_link = 'https:game.gtimg/images/yxzj/img201606/skin/hero-info/506/506-bigskin-2.jpg'
        pic_link = f'https://game.gtimg/images/yxzj/img201606/skin/hero-info/{id}/{id}-bigskin-{i+1}.jpg'
        image_path = hero_folder + '/' + skin_na + '.jpg'
        with open(image_path, 'wb')as file:
            print('正在下载%s 之 %s' % (name, skin_na))
            file.write(requests.get(pic_link, headers=header).content)

本文标签：阵容皮肤王者实例英雄

版权声明：本文标题：爬取实例三：爬取lol英雄联盟全阵容皮肤和爬王者荣耀全阵容皮肤内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1728795506a1174126.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

pbe下载教程超简单的一键下载英雄联盟pbe教程

3小时前

pbe下载教程超简单的一键下载英雄联盟pbe教程英雄联盟PBE美测服是拳头公司专为测试游戏内容和收集Bug而设立的服务器。由于它通常比正式服更新更快因此吸引了大量玩家前来体验。然而美测服的下载过程可能会有些复杂，

《王者荣耀》《英雄联盟》等游戏官网皮肤图片Python爬取，你知道了吗？

3小时前

本文简介：本文使用Python制作爬虫，来爬取《英雄联盟》《王者荣耀》《神之浩劫》等游戏官方网站的英雄皮肤图片。可以作为新手爬虫的练手实战案例！！对于腾讯的这三款MOBA游戏，其中《王者荣耀》和《英雄联盟》大部分同学可能都不会陌生。对于

ID CS6怎么加框_英雄联盟手游怎么修改游戏id-lol手游改中文名方法分享

3小时前

相信很多的小伙伴都有去玩lol手游吧，虽然都在外服玩。那么各位童鞋，你们知道要怎么把自己的游戏id变成中文吗，对于还不会这个操作的大兄弟们，ie小编也是

使用爬虫框架scrapy爬取LOL英雄数据

3小时前

Scrapy框架实战爬取目标：英雄联盟所有英雄的基本信息(名字，背景故事，技能名称及介绍)、下载所有英雄的皮肤并保存至本地首先来到LOL官网首页&#xff0c

现在如何注册台服服务器,《英雄联盟手游》台服账号注册教程台服拳头账号注册步骤图解...

3小时前

lol手游台服账号怎么注册？台服现在已经公测了，国服的玩家在也不用去其他地区服务器进行体验了，在中文大区内进行对局，体验起来的感觉绝对会比其他地方要好很

Python爬取英雄联盟皮肤，并保存到本地

3小时前

目标网址：英雄联盟官网思路：获取到跳转的url，通过请求url来获取想要的数据使用浏览器的开发者调试工具（F12）对网页进行

python使用selenium爬英雄联盟王者荣耀壁纸附源码

3小时前

文章目录 LOL壁纸分析写代码王者荣耀壁纸分析写代码源码lol王者荣耀之前看到好多爬王者荣耀和英雄联盟壁纸的，现在有时间，自己也搞个玩玩记录一下，也帮助一下想要学习的

LPL比赛数据可视化，完成这个项目，用尽了我的所有Python知识_lol英雄信息爬虫数据可视化

3小时前

代码过多，请到源码中查看 Echarts部分小总结 Echarts部分不是很难，直接到Echarts官网实例中找你想要的图表，然后复制代码，修改图表的

Python 多进程、协程异步抓取英雄联盟皮肤并保存在本地

3小时前

作者 | 俊欣来源 | 关于数据分析与可视化就在11月7日晚间，《英雄联盟》S11赛季全球总决赛决斗，在冰岛拉开“帷幕”，同时面向全球直播。在经过了5个小时的鏖战&

魄罗盒子一直显示连接服务器失败,英雄联盟安装错误代码7001004怎么办 | 手游网游页游攻略大全...

3小时前

发布时间：2016-01-13 LOL英雄联盟在今天6月9日进行了新的版本更新,在更新的同时很多小伙伴们遇到了自动更新失败以及提示错误代码263的提示,那么要怎么解决呢?下面就是多游攻略带来的LOL英雄联盟6月9日更新

利用matlab爬虫从OPGG上整理LOL英雄信息

3小时前

问题描述 OPGG是最权威的LOL数据网站，从这个网站上我们可以得到很多有关LOL的非常有用的数据，而matlab爬虫就是一个能够从网站上搜集信息的工具。这篇文章将要讲述如何利用matlab爬虫从OPGG上整理LOL英雄信息。结果展示

英雄联盟是什么？

3小时前

我是一名大二的女学生，一直以来我对游戏方面都缺乏一定的了解，在一次偶然的机会，有幸去观看了一场S11全球总决赛，刚开始看得一头雾水&#xff0c

如何看自己在英雄联盟中的定位？也就是自己的本命英雄？

3小时前

对于这个问题，大多数的玩家都会去官网查看，因为那里已经给大多数玩家生成好了。但是你们发现没有，一般自己心目中所想或者比较喜欢的都不是自己的本命英雄，难道

git.exe 启动慢_拳头：今年将修复英雄联盟客户端启动时间降到19秒

3小时前

《英雄联盟》新版客户端自上线以来虽然官方进行过几次修复，但仍然存在不少的BUG，客户端的启动速度和加载速度非常慢。拳头官方今天在官网发布了一篇公告，称未来六个月将会对lol客