爬虫python下载电影_python爬虫--爬取某网站电影下载地址|电子爱好者

admin管理员组
文章数量:1563231

前言：因为自己还是python世界的一名小学生，还有很多路要走，所以本文以目的为向导，达到目的即可，对于那些我自己都没弄懂的原理，不做去做过多解释，以免误人子弟，大家可以网上搜索。

友情提示：本代码用到的网址仅供交流学习使用，如有不妥，请联系删除。

背景：自己有台电脑要给老爸用，老爷子喜欢看一些大片，但是家里网络环境不好，就想批量下载一些存到电脑里。但是目前大部分的网站都是这样的，

需要一个个地点进去，才能看到下载地址

如果我要下载100部电影，那肯定手都要点断了，于是便想把这些地址给爬取出来，迅雷批量下载。

工具：python（版本3.x）

爬虫原理：网页源代码中含有下载地址，把这些零散的地址批量保存到文件中，方便使用。

干货：首先上代码，迫不及待的你可以先运行一下，再看详细介绍。

importrequestsimportre#changepage用来产生不同页数的链接

defchangepage(url,total_page):

page_group= ['https://www.dygod/html/gndy/jddy/index.html']for i in range(2,total_page+1):

link= re.sub('jddy/index','jddy/index_'+str(i),url,re.S)

page_group.append(link)returnpage_group#pagelink用来产生页面内的视频链接页面

defpagelink(url):

base_url= 'https://www.dygod/html/gndy/jddy/'headers= {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}

req= requests.get(url , headers =headers)

req.encoding= 'gbk'#指定编码，否则会乱码

pat = repile('',re.S)#获取电影列表网址

reslist =re.findall(pat, req.text)

finalurl=[]for i in range(1,25):

xurl=reslist[i][0]

finalurl.append(base_url+xurl)return finalurl #返回该页面内所有的视频网页地址

#getdownurl获取页面的视频地址

defgetdownurl(url):

headers= {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}

req= requests.get(url , headers =headers)

req.encoding= 'gbk'#指定编码，否则会乱码

pat = repile('ftp',re.S)#获取下载地址

reslist =re.findall(pat, req.text)

furl= 'ftp'+reslist[0]returnfurlif __name__ == "__main__":

html= "https://www.dygod/html/gndy/jddy/index.html"

print('你即将爬取的网站是：https://www.dygod/html/gndy/jddy/index.html')

pages= input('请输入需要爬取的页数：')

p1=changepage(html,int(pages))

with open ('电影天堂下载地址.lst','w') as f :

j=0for p1i inp1 :

j= j + 1

print('正在爬取第%d页,网址是 %s ...'%(j,p1i))

p2=pagelink(p1i)for p2i inp2 :

p3=getdownurl(p2i)if len(p3) ==0 :pass

else:

finalurl=p3

f.write(finalurl+ '\n')print('所有页面地址爬取完毕!')

核心模块getdownurl函数：通过requests来获取页面信息，可以认为这个信息的text就是页面源代码（几乎任何一款浏览器右键都有查看网页源代码的选项），再通过repile正则表达式匹配的方式来匹配到网页源代码中的网址部分，可以看下图

这部分怎么提取呢？通过正则表达式匹配。怎么写这个正则表达式呢？这里用到一个简单粗暴的方法：

ftp

爬虫中经常用到.*?来做非贪婪匹配（专业名词请百度），你可以简单认为这个(.*?)就代表你想要爬取出来的东西，这样的东西在每个网页源码中都是夹在ftp之间的。有人可能会问，那这个匹配出来的不是网址啊，比如上图中出来的就是://d:d@dygodj8:12311/[电影天堂www.dy2018]请以你的名字呼唤我BD中英双字.mp4，前面少了个ftp啊？

是的，不过这是故意为之，如果正则表达式写成ftp，可能夹在ftp之间的东西就太多了，二次处理的成本还不如先用你觉得最快最直接的方式抽取有用信息，然后再进行拼接来得快。

代码详解：

一、getdownurl

#getdownurl获取页面的视频地址

defgetdownurl(url):

headers= {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}

req= requests.get(url , headers =headers)

req.encoding= 'gbk'#指定编码，否则会乱码

pat = repile('ftp',re.S)#获取下载地址

reslist =re.findall(pat, req.text)

furl= 'ftp'+reslist[0]return furl

其中headers是用来将你的脚本访问网址伪装成浏览器访问，以防有些网站进行了反爬虫的措施。这个headers在很多浏览器中也可以很容易得到，以Firefox为例，直接F12或查看元素，在网络标签，右侧的消息头中右下角即可看到。

requests模块：requests.get(url , headers =headers)是用伪装成firefox的形式获取该网页的信息。

re模块：可以参考python正则表达式的一些东西，这里用replile来写出匹配的模式，re.findall根据模式在网页源代码中找到相应的东西。

二、pagelink

#pagelink用来产生页面内的视频链接页面

defpagelink(url):

base_url= 'https://www.dygod/html/gndy/jddy/'headers= {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}

req= requests.get(url , headers =headers)

req.encoding= 'gbk'#指定编码，否则会乱码

pat = repile('',re.S)#获取电影列表网址

reslist =re.findall(pat, req.text)

finalurl=[]for i in range(1,25):

xurl=reslist[i][0]

finalurl.append(base_url+xurl)return finalurl #返回该页面内所有的视频网页地址

第一步getdownurl是用于爬取一个网页的网址，这一步用于获取同一页面内所有网页的网址，像下面的网页包含很多电影链接

源码是这样的：

聪明的你一看就知道需要哪些信息，这个页面正文有25个电影链接，我这里用到一个list来存放这些网址，其实range（1,25）不包含25，也就是说我只存放了24个网址，原因是我的正则表达式写的不好，爬出来的第一个网址有问题，如果有兴趣可以研究下怎么完善。

需要一提的是这个正则表达式用到了两处.*?，所以匹配到的reslist是二维的。

三、changepage

#changepage用来产生不同页数的链接

defchangepage(url,total_page):

page_group= ['https://www.dygod/html/gndy/jddy/index.html']for i in range(2,total_page+1):

link= re.sub('jddy/index','jddy/index_'+str(i),url,re.S)

page_group.append(link)return page_group

这里也比较简单，点击下一页，抬头看看网址栏的网址是什么，这里是index/index_2/index_3...很容易拼接

四、main

if __name__ == "__main__":

html= "https://www.dygod/html/gndy/jddy/index.html"

print('你即将爬取的网站是：https://www.dygod/html/gndy/jddy/index.html')

pages= input('请输入需要爬取的页数：')

p1=changepage(html,int(pages))

with open ('电影天堂下载地址.lst','w') as f :

j=0for p1i inp1 :

j= j + 1

print('正在爬取第%d页,网址是 %s ...'%(j,p1i))

p2=pagelink(p1i)for p2i inp2 :

p3=getdownurl(p2i)if len(p3) ==0 :pass

else:

finalurl=p3

f.write(finalurl+ '\n')print('所有页面地址爬取完毕!')

main里面几乎没什么好说的，反正就是循环读取，再往文件里写进行了。

五、运行及结果

然后迅雷就可以直接导入了。（后缀为downlist或lst迅雷可以直接导入）

后记：有些可能会觉得这样一股脑的把电影都下载下来，可能有些电影太烂，下载下来就是浪费时间和资源，而手工筛选又太费事，后续会通过数据库的方式来存储影片的信息，从而筛选出需要的地址。

本文标签：爬虫下载地址下载电影电影网站

版权声明：本文标题：爬虫python下载电影_python爬虫--爬取某网站电影下载地址内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1727487349a1117266.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

爬虫python下载电影_python爬虫--爬取某网站电影下载地址

更多相关文章

腾达a9服务器无响应,腾达(Tenda)A9设置网站打不开怎么办？

路由器架设虚拟服务器让外网访问到本地网站

js判断是否是搜索引擎（蜘蛛）、爬虫

网站怎么屏蔽指定搜索引擎访蜘蛛的访问

判断IP是否为搜索引擎蜘蛛或爬虫

网站快速吸引搜索引擎蜘蛛爬行

怎么快速的让网站被收录？搜索引擎的工作原理

搜索引擎抓取网站出现异常的原因？

解决“只能通过Chrome网上应用商店安装该程序”的方法下载地址

【爬虫篇】Playwright的使用——支持移动端浏览器（模拟爬取手机网页）

电影《浴火之路》百度下载云资源[MKV5.68GB]迅雷磁力完整版

怎么用迅雷下载python_我是如何使用python控制迅雷自动下载电影的?

我是如何使用python控制迅雷自动下载电影的?

电影资源 BT PT下载的电影命名 规则 资源 详解

python下载电影_python下载电影

怎么下载php文件的电影,下电影下下来是.php格式，请问怎么打开？

python下载电影天堂视频_一篇文章教会你利用Python网络爬虫获取电影天堂视频下载链接...

迅雷BT下载电影99.9%不动原地循环解决方案

怎样用自己电脑做服务器供他人访问自己的网站

解决阿里云服务IIS搭建Web网站外网无法访问

发表评论

推荐文章

iPhone 在 App Store 中推出的 PC 模拟器 UTM SE

win8系统下安装 .NET Framework 3.5出现错误代码：0x800F0906

服务器系统运行不了怎么办,电脑win10开机后进不了系统怎么办_网站服务器运行维护...

开源项目教程：Open Code of Conduct

网易云音乐Mac上传云盘

热门文章

各开发者android平台的注册及上传方法汇总

计算机专业用哪种电脑合适,适合设计师用的笔记本

360遭下架，苹果商店封杀360手机应用

（已解决）Ubuntu 16.04 循环登录问题原因及对策总结（2021.3更新）

彻底解决共享打印机时报错误代码0x0000011b或0x00000709或0x000006d9提示错误系统Win10Win8Win7XP等局域网共享文件夹或文件或打印共享等等问题

android 技能 英文,讯飞输入法Android7.0.4050搭载音标输入神技能

英语的学习‘’

The POODLE attack (SSLv3 supported) 漏洞修复

天翼云内网服务器映射端口,天翼云服务器创建对等连接（不同账户组内网）

百度云网盘电脑手机端下载的文件保存的位置在哪？

最新文章

2023 苹果小游戏无限撸红包 全程免看广告

当贝盒子刷EmuELEC游戏系统固件

移动盒子 【源代码】

cts游戏手机版_CTS6遨游中国2豪华版下载,CTS6遨游中国2手机版官网豪华版安装包 v1.4 - 游戏盒子下载站...

树莓派+android+盒子,最强电视盒子诞生记-树莓派4电视盒子

android 盒子 红白机 模拟器,安卓FC模拟器

鲸享云小盒子业务x86刷机

Rust盒子APP下载及Rust腐蚀APP使用教程

游戏盒子接球

android盒子模拟器,盒子模拟器游戏

PS3手柄连接斐讯T1盒子

游戏盒子接球最终版

cimoc 最新版_cimoc隐藏入口最新版本1.6.1下载,cimoc最新版本1.6.1 - 游戏盒子下载站...

HTML 网页制作 盒子设计 CSS

如何把电视盒子做成游戏机？ —— 破解电视IPTV盒子（Skyworth E900-S）

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

电影资源 BT PT下载的电影命名规则资源详解

android 技能英文,讯飞输入法Android7.0.4050搭载音标输入神技能

2023 苹果小游戏无限撸红包全程免看广告

移动盒子【源代码】

android 盒子红白机模拟器,安卓FC模拟器

HTML 网页制作盒子设计 CSS

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载