admin管理员组

文章数量:1582933

         项目镇楼本文的项目都在此处哦

         工作嘛,就是不在需求中爆发,就在需求中灭亡。

         最近接了个奇怪的需求。要用java实现百度网盘(有提取码的)下载。。我估么着就是url和提取码太多他懒得自己一个一个下载emmmmmm反正有需求就得看着折腾。

        最开始寻思这种事情,可能目测得去官网查查SDK有木有。。。百度功能太多。。没看懂到底都是什么玩意。于是就只能自己爬虫了。

        爬虫实现首先还是首选Jsoup,因为别的我也不会emmmm

        思路上,首先你要获取到百度网盘的真实下载路径,然后再正常下载就行。遇事不决先百度。。获得了一个java获得百度网盘真实路径的好方法——不带提取码的这种获取百度网盘下载真实地址

       有了参考,带提取码的就可以扒一扒了

       首先先定义几个全局变量

//下载链接和提取码
private static String url = "https://pan.baidu/s/1x6q8VhFE5zzAlA5oH50wLA";
private static String pwd = "i076";
//这几个参数不要动
private static final String baseUrl = "https://pan.baidu/share/verify?surl=";
private static String params = "";
//下载参数,文件名及文件大小
private static String server_filename = null;
private static String size = null;
//从cookie中获取的重要参数 核心参数
private static String sekey = "";

       参数说明:url和pwd是网址和提取码,注意这个网址是百度给的那个分享的 不是复制到浏览器以后跳转到的链接,它们是不一样的,会影响获取到的surl参数。剩下的就不用动原样放着就行。baseUrl和param是第一波请求cookies需要的拼接网址,文件名及大小是下载需要的参数,sekey是个很重要的没它不行的参数,找了好几天去对了调试器中的js才发现它在cookie中。

       爬虫第一步,一定是要有cookie。打开那个网址(https://pan.baidu/s/1fYFbqAHY_NkxoM0y2pypnQ),会惊奇的发现地址栏url是https://pan.baidu/share/init?su

本文标签: 爬虫百度网Java