Python爬虫实战之爬取QQ音乐数据|电子爱好者

admin管理员组
文章数量:1536771

准备工作

准备如下几个工具。BeautifulSoup包、IDLE
对前端的知识有一定的理解

安装方法

1.IDLE下载链接
2.BeautifulSoup包在拥有IDLE的前提下输入win+r
3.输入cmd 进入命令提示符
4.输入命令 pip install BeautifulSoup4

步骤

新建py文件
复制网页链接
获取网页源代码
获取数据
自定义保存

新建py文件

建立函数结构

import urllib.request
from bs4 import BeautifulSoup
def open_url(url):
	pass
def find_attribute(url):
	pass
def main():
	pass

复制网页链接

复制网页链接将链接用列表进行保存下来。如果想要同一时间获取多个网页里面的数据，自行书写for循环遍历列表即可。以下只以一个网页进行讲解。

def main():
	# 用列表进行存储网页链接
    url = "https://y.qq/n/yqq/playlist/7174020835.html#stat=y_new.index.playlist.name"
	
	# 将url传到该函数进行获取数据该功能
    find_attribute(url)

获取源代码

def open_url(url):
	
    req = urllib.request.Request(url)
    # 模拟电脑访问
    # 按F12按照图片所示操作即可获取添加
    req.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36")
    # 给网页发送请求。网页就会返回一个响应给我们
    response = urllib.request.urlopen(req)
    # 获取源代码
    html = response.read()

    # 将源码以utf-8 的形式进行解码
    return html.decode("utf-8")

获取数据

使用select定位的方法。有可能存在以下问题：
1.定位不准确，会导出网页其他的内容
2.找不到内容，原因：定位深度有限。解决方案：父子关系多写几层用＞符号进行建立父子关系
3.对于类选择题，ID选择器有不同的方法进行搜索。
自行上网进行查阅。关键字：beautifulsoup.select方法的使用
每一次书写select定位的方法可以使用print进行打印。
获取的数据是用列表进行存储的。


def find_attribute(url):
	
    # 此处返回的html就是网页的源代码
    # 可以用print(html) 打印观看一下效果
    html = open_url(url)
    # 利用BeautifulSoup将源代码进行解析
    soup = BeautifulSoup(html,"lxml")
    # 通过标签进行选择数据即可
    # 定位的方法具体如图片所示
    # <div class="songlist__number">30</div>
    # 排名
    ranks = soup.select("div.songlist__number")
    # 歌曲
    musics = soup.select("span.songlist__songname_txt > a")
    # 歌手
    singers = soup.select("div.songlist__artist > a")
    # 专辑
    albums = soup.select("div.songlist__album > a")
    # 时长
    times = soup.select("div.songlist__time")

    list1 = []
    # 连接列表。用循环打印
    # 再存放到字典当中
    for rank,music,singer,album,time in zip(ranks,musics,singers,albums,times):
        data = {
        	# 获取文本用 get_text()
        	# 获取属性值用['属性']
            "排名":rank.get_text(),
            "歌曲":music["title"],
            "歌手":singer["title"],
            "专辑":album["title"],
            "时长":time.get_text()
        }
        # 追加到列表当中
        list1.append(data)
    print(list1)

源代码


import urllib.request
from bs4 import BeautifulSoup


def open_url(url):

    req = urllib.request.Request(url)
    # 模拟电脑访问
    req.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36")
    response = urllib.request.urlopen(req)
    html = response.read()

    # 将源码以utf-8 的形式进行解码
    return html.decode("utf-8")


def find_attribute(url):

    
    html = open_url(url)
    soup = BeautifulSoup(html,"lxml")
    # 通过标签进行选择数据即可
    # <div class="songlist__number">30</div>
    # 排名
    ranks = soup.select("div.songlist__number")
    # 歌曲
    musics = soup.select("span.songlist__songname_txt > a")
    # 歌手
    singers = soup.select("div.songlist__artist > a")
    # 专辑
    albums = soup.select("div.songlist__album > a")
    # 时长
    times = soup.select("div.songlist__time")

    list1 = []
    for rank,music,singer,album,time in zip(ranks,musics,singers,albums,times):
        data = {
            "排名":rank.get_text(),
            "歌曲":music["title"],
            "歌手":singer["title"],
            "专辑":album["title"],
            "时长":time.get_text()
        }
        list1.append(data)
    print(list1)

def main():
    # 第一步：将url传过去利用一定手段返回网页的源码
    # 第二步：源码获取了之后
    # 第三步：通过标签的父子关系进行定位
    # 第四步：将获取的数据，进行一个保存
    # 如果有多个url添加for循环修改地址即可
    # 这里只演示单个网页
    url = "https://y.qq/n/yqq/playlist/7174020835.html#stat=y_new.index.playlist.name"
    
    # 为了更加好看。设计模块化罢了
    find_attribute(url)


if __name__ == "__main__":
     main()

本文标签：爬虫实战数据音乐 Python

版权声明：本文标题：Python爬虫实战之爬取QQ音乐数据内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1725532288a1028055.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Python爬虫实战之爬取QQ音乐数据

目录

准备工作

安装方法

步骤

新建py文件

复制网页链接

获取源代码

获取数据

源代码

更多相关文章

关闭浏览器 如何清除localStorage数据

Android ANR 问题第二弹------Input超时实战问题解析上

如何设计微服务的数据一致性

python360安全浏览器_python-selenium自动化测试（火狐、谷歌、360浏览器启动）

python selenium操作打开的浏览器_使用python操作selenium操作第三方浏览器(360浏览器)...

使用python+selenium控制手工已打开的浏览器， 支持 chrome， 360极速浏览器

python 模拟用户点击浏览器_使用python进行模拟浏览器操作

基于PythonSocket实现小型的远程木马(包含实验)

python接收发送QQ邮箱(保姆级)

可转债代码交流第一期：利用Python获取宁稳网数据

python实现股票选取

python数据可视化字段,Python数据可视化

Python财经数据接口包TuShare的使用

量化交易入门笔记-数据获取函数 二

Python可视化初级（三）——常见图形绘制

Python：Windows7 （64位）系统下安装Scrapy详细教程

CnOpenData Glassdoor美国上市公司面试者评价数据

Python爬虫：windows系统下的mitmproxy的安装与配置过程（PC端+IOS手机端）

跨平台：GN实践详解（ninja, 编译, windowsmacandroid实战）

《Windows安全机制》之DEP(数据执行保护)

发表评论

推荐文章

Android ANR问题原因分析

360浏览器新建的标签页总是在下面，恢复到上面窗口的方法

在win7上装CX-one 4.51（cx-one cannot be installed on windowsxp service pack2 or older）

Loadrunner 录制脚本自动打开360浏览器

关于 Windows 10 如何扩展分区与合并分区

热门文章

计算机专业外语英译汉,计算机专业英语翻译(英译汉)急急急!~~~急急急!~~~

Mac党福音！这些纯净无广告的Mac软件下载站，让你的电脑秒变神器！

视频mov如何转换成mp4？

【spring】解决因@Async引起的循环依赖报错

共识算法论文——Paxos Made Simple

Spring是如何解决循环依赖的？

知识图谱的应用领域

Android病毒查杀原理

106-网络安全——第七章计算机病毒和手机病毒

web前端360浏览器接入监控视频

最新文章

java版本区别

windows7 防火墙关于文件共享的设置

【转载】Windows CMD命令大全

JDK 32bit与64bit的区别

EFI, UEFI和BIOS的区别，GPT分区和MBR分区的区别

疯狂游戏型计算机配置清单,组装电脑高配置清单 一起看看吧

Windows管理员权限思考

Windows Deployment Services（Windows 部署服务） 各版本特性和功能

windows PE文件结构及其加载机制

UEFI+GPT引导实践篇（二）：UEFI引导安装64位Win7Win8

计算机组装部件推荐,电脑配置推荐：从入门到高端的组装电脑主机配置推荐清单大全...

提权系列(一)----Windows Service 服务器提权初识与exp提权,mysql提权

CMD（windows）操作命令大全

sql server2008 R2 各个版本的区别与选择

windows7问题集合

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

关闭浏览器如何清除localStorage数据

使用python+selenium控制手工已打开的浏览器，支持 chrome， 360极速浏览器

量化交易入门笔记-数据获取函数二

计算机专业外语英译汉,计算机专业英语翻译(英译汉)急急急!~急急急!~

疯狂游戏型计算机配置清单,组装电脑高配置清单一起看看吧

Windows Deployment Services（Windows 部署服务）各版本特性和功能

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载