Java爬虫系列之实战：爬取酷狗音乐网 TOP500 的歌曲(附源码)|电子爱好者

admin管理员组
文章数量:1650872

在前面分享的两篇随笔中分别介绍了HttpClient和Jsoup以及简单的代码案例：

Java爬虫系列二：使用HttpClient抓取页面HTML
Java爬虫系列三：使用Jsoup解析HTML

今天就来实战下，用他们来抓取酷狗音乐网上的 Top500排行榜音乐。接下来的代码中除了会用到HttpClient和Jsoup之外，还会用到log4j和ehcache，分别用来记录日志和实现缓存，如果看官对这两个不是很熟悉的话，请自行百度，现在网上的入门实例有很多，我就不专门记笔记了。

那为什么会想到爬取酷狗音乐网呢？其实也不是我想到的，而是不久前看过某位大神的博客就是爬取酷狗的（具体哪位大神不记得了，见谅哈~~~），我也想用自己的代码试试，并且我看的博客里面好像没有用到缓存，也没有用到代理ip这种反反爬虫的工具，我会在我的爬虫程序里面补上，亲测能自动处理全部23页的歌曲（但是付费歌曲由于必须登录购买才能访问，因此未能下载到，只有其他的400+首非付费歌曲可以正常下载），所以酷狗网的工作人员不要担心哦~~~

话有又说回来了，在那篇博客出来后，也没见酷狗音乐去专门处理下，还能给我留下写这段代码的机会，说明人家酷狗不在乎，毕竟付费歌曲是不能爬取的，而且网站已经有了一定的反爬虫机制。

***************************************************************************

声明：

本爬虫程序和程序爬取到的内容仅限个人学习交流使用，

请勿用于商业用途，否则后果自负

***************************************************************************

好，废话不多说，该上干货了~~

================很华丽的分割线=================

一、设计思路

首先说下思路，我看过的那篇博客没有把过程写详细，我就把它补充下吧：

1.点进去Top500排行榜，它的地址栏里面是：https://www.kugou/yy/rank/home/1-8888.html?from=homepage，而这个1其实就是页码，访问第N页就把1改成N就行，这个是我爬取的基础

2.点具体某首歌曲，比如《你的酒馆对我打了烊》，新打开页面：https://www.kugou/song/#hash=BE1E1D3C2A46B4CBD259ACA7FF050CD3&album_id=14913769，

3.我们F12分析下网络请求（啥？打开F12没东西？大哥呀你不会再刷新下吗），

你会发现有个耗时很长的请求,而且类型是media，它很可能就是真正获取mp3的请求

仔细看，果然是的，mp3的真实地址是：http://fs.w.kugou/201905272134/9d4d81230e6f5c759df51618b03961a7/G126/M00/05/09/HocBAFxLAoeAT3BzAD1nWyW7V5M814.mp3

关掉页面，重新进入该页面，MP3的真是地址是：http://fs.w.kugou/201905272139/2897cc9816b82f4cda304d927187b282/G126/M00/05/09/HocBAFxLAoeAT3BzAD1nWyW7V5M814.mp3

根据这个看不出来啥

继续分析，那它是怎么找到这个真实地址的呢？应该是前面的某个请求里面获取到了真实地址，找前面的请求：

这个请求的response里面含有MP3的真实地址，

请求的request为：

https://wwwapi.kugou/yy/index.php?r=play/getdata&callback=jQuery19106506492572547629_1558964792005&hash=BE1E1D3C2A46B4CBD259ACA7FF050CD3&album_id=14913769&dfid=3LWatj1PQwvn09grkH3FbFAF&mid=31adc5218ff6a510b05aacad71bc7090&platid=4&_=1558964792007

退出重新获取一次，然后再退出换首歌再获取一下这个request，你会发现一些规律：

粉红色是歌曲播放页面地址栏里面的内容，加粗部分是日期的long值，其他的都可以不变（“jQuery19106506492572547629_1558964792005”虽然每次有变化，但是经过尝试，其实没有影响），

所以我们就可以通过请求这个链接来获取带有MP3真实地址的json，然后请求真实地址，从而获取音乐文件。

4.那粉红色部分的值怎么获取呢？查看top500的列表页的源码会发现有段内容，这个里面记录的第N页所有歌曲的hash值、歌曲名、id等基本信息

// 列表数据
global.features = [{"Hash":"BE1E1D3C2A46B4CBD259ACA7FF050CD3","FileName"

本文标签：音乐网爬虫实战源码酷狗

版权声明：本文标题：Java爬虫系列之实战：爬取酷狗音乐网 TOP500 的歌曲(附源码) 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1729549381a1206034.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Java爬虫系列之实战：爬取酷狗音乐网 TOP500 的歌曲(附源码)

更多相关文章

怎样把酷狗音乐wav转化成高品质的MP3格式？

用selenium模拟搜索爬取酷狗试听歌曲及歌词

酷狗音乐模仿还在继续之UI界面源码下载

java接收的文件转换成临时文件,java实现酷狗音乐临时缓存文件转换为MP3文件的方法...

Pyside2新手1400行代码QQ音乐网易云酷狗轻松下载

python里的英文歌_python下载酷狗音乐上的歌曲

htmlunit+fastjson抓取酷狗音乐 qq音乐链接及下载

酷狗与鸿蒙系统,酷狗音乐鸿蒙版app

如何剪辑QQ酷狗下载的音乐？

linux系统下载不了酷狗,在Ubuntu9.10下安装‘酷狗’成功后，打开‘酷狗’遇到问题？...

python下载酷狗音乐上的歌曲(1)，毕业工作5年被裁

测试网络的播放软件,酷狗音乐怎么检测网络 网络测试方法介绍

源码分享：爬虫获取酷狗的付费音乐

酷狗KGM转MP3或FLAC工具

酷狗音乐爬取（20231011）

青龙面板--酷狗大字版-2022-05-07

如何解密网易ncmqq音乐的qmcflac酷狗kgm等加密格式转换成MP3

基于Python的多平台音乐下载器（附源码软件）

java仿酷狗音乐播放器(菜鸟+实现部分功能)

酷狗音乐的临时缓存文件转换为MP3文件，java源码

发表评论

推荐文章

内存不够用？小米古董手机刷机升级MIUI13实现内存扩展(详细教程)

AI-WEB-1.0靶机教程

如何轻松地将文件从Android传输到 PC | 7 种方法

Typora makedown转换PDF实现换页

计算机文件恢复快捷键,文件变成快捷方式怎么恢复

热门文章

小米电视 android版本升级,小米电视2系统版本多久更新一次

【已解决】Win 10 切换程序时，默认输入法始终为英文，抓狂，解决办法

聊聊 2020 的 dotnet 各大开源项目仓库的情况

Oracle 账户被锁：the account is locked 解决方法

在 kubectl 中使用 Service Account Token

vue3中vue-pdf-embed实现放大、缩小、上一页、下一页、滚动翻页功能（pdf文件预览）

用 Python 抓取公号文章保存成 PDF

浏览器被360劫持怎么办

一周信创舆情观察（2021.12.27~2022.1.3）

vue 做的酷狗音乐网页版 ，酷狗音乐网页版，ui界面模仿原生酷狗音乐

最新文章

linux 用户卸载搜狗输入法一生轻松

ios 输入法扩展_搜狗输入法 iOS 版开发与优化实践

Ubuntu20.04下安装搜狗输入法Linux版

Ubuntu18.04下安装搜狗输入法(详细教程)

ubuntu14.04LTS下搜狗输入法问题汇总 (搜狗输入法崩溃，搜狗输入法候选区乱码，没有搜狗输入法皮肤)

在Ubuntu18.04下安装搜狗输入法

Linxu软件之如何安装和使用搜狗输入法？（Ubuntu）

Linux下搜狗输入法的皮肤的更换

Ubuntu18.04下 安装并配置搜狗输入法

解决Qtcreator搜狗输入法无法输入中文问题

Ubuntu 20.04解决idea jetbrain系列产品 搜狗输入法其他输入法 一直显示在左下角，不跟随打字的问题

搜狗输入法如何开启截屏快捷键

kubuntu18.04安装搜狗输入法

Ubuntu下不能切换中文，qt creator无法输入中文，sogo输入法（详细步骤）_ubuntu搜狗输入法中英文切换

绝了！搜狗输入法这骚操作！

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

测试网络的播放软件,酷狗音乐怎么检测网络网络测试方法介绍

vue 做的酷狗音乐网页版，酷狗音乐网页版，ui界面模仿原生酷狗音乐

Ubuntu18.04下安装并配置搜狗输入法

Ubuntu 20.04解决idea jetbrain系列产品搜狗输入法其他输入法一直显示在左下角，不跟随打字的问题

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载