爬取电影资源之网页爬取篇（python）|电子爱好者

admin管理员组
文章数量:1530845

不知道大家平常喜不喜欢待在宿舍一个人看电影？
作为一个高龄屌丝，电影对我来说是必不可少的。平常无聊时自己一个人待在宿舍看看电影，看看书。
（人闲下来就会胡思乱想，不能让寂寞侵蚀自己的内心）

其实还是喜欢和朋友一起去看电影的，更有气氛，有感觉点。可惜几个朋友都和我一样是钢铁男，极其尴尬(⊙o⊙)！
哈哈哈。。。

所以呢，我都是自己在网上找些电影资源来消遣时间，像电影天堂、6V电影网等等（你们有什么好的资源可以推荐推荐一下 (✪ω✪)）。
只不过这些网站上的资源很多很杂，良莠不齐。虽然悠闲，但起码也要看些好看的电影是吧。

平常我就每一个链接点击，查看有哪些新电影，再看看评分，然后看看剧情，最后才把满意的电影用迅雷下载下来。
很慢，比较烦人，而且还会弹出一些“莫名其妙”的广告，尴尬至极。。。
因此，这次我就给大家分享一下：用爬虫爬取一下电影资源（以6V电影网为例），过滤掉无关信息，提高效率。（既节约时间，又有逼格）。当然，假如你平常都是和别人一起去电影院看电影的，那就不用看了（羡慕嫉妒╭(╯^╰)╮）。好，开始发车！！！！

首先说说爬虫，简单来说就是写一个自动化程序向网络服务器请求数据（通常是用 HTML表单或其他网页文件），然后对数据进行解析，提取需要的信息。（具体是什么概念你们自己上网查吧，其实我也才学几天 (๑>︶<๑)）
我的整个设计流程如下：

1. 分析6V电影网的主页结构

6V电影网的主页分为三列，如下图所示。

该网每天会推荐一些电影（如上图中的“今日推荐”），电影质量还算可以，大部分电影评分还行。所以这部分及是我们现在要提取的部分。
然后我们查看其源码，找到该部分的代码（还是很好找的，网页结构比较简单）见下图：

为了验证找到的代码区域是否为我们需要的，可以把图中框出的代码复制到一个text文件里，然后更改为html文件，再打开，看是否值包含我们需要的部分（今日推荐部分），见下图：

2. 定位相应的标签（主网页）

下面是一段上面定位部分的开始几段代码：

<div id="main">
	<div class="col1">
    	<div class="box">
        	<h3>今日推荐</h3>
           <ul class="pic">
           	<li><a	href="http://www.hao6v/dy/2018-09-13/DZD6QMWJ.html" target="_blank"><img  src="https://tu.66vod/2018/3489.jpg" alt="2018高分动作《碟中谍6：全面瓦解》1080p.国英双语.BD中英双字">

可以看出 “今日推荐”区域（电影，不包括该区域的电视剧部分）是在<div id="main">，<div class="col1">的元素块里，且有个明显的标识是<h3>今日推荐</h3>。
电影的资源链接在href=http://www.hao6v/dy/2018-09-13/DZD6QMWJ.html这个部分；
电影的图片资源在src=https://tu.66vod/2018/3489.jpg这个部分；
电影的名字在alt="2018高分动作《碟中谍6：全面瓦解》1080p.国英双语.BD中英双字"这个部分。

3. 获取各电影的URL

根据前面的分析，利用Python以及BeautifulSoup的库实现电影的URL的提取：
提取结果如下：

4. 定位相应的标签（URL所指的网页）

电影的下载页面分为两列，我们需要的在右边一列。
同样通过查看网页的源码，来定位下载链接及其他相关信息的标签位置。

从上面可以看出电影的描述信息可在<meta name="description" content="”<br /> 这个部分获取；
下载链接在<table cellspacing="1" cellpadding="10" width="100%" bgcolor="#0099cc" border="0">这个部分。

5. 提取电影的信息

已经知道信息的位置，现在就是写代码来自动提取了。
获取豆瓣评分的代码：
结果：
获取下载链接的代码：

结果：（电驴和磁力链接）

6. 运用迅雷下载电影

把提取的下载链接直接复制，然后打开迅雷，就可以进行下载了。我自己测试了一下，没问题！

好了到现在电影信息的爬取就完成了！而且在我coding过程中，网页刷新了3次，代码没有因为网页刷新而出BUG！（当然，其他BUG出了一大堆）。
接下来打算用C#写个界面，显示爬取的信息，像电影名称、电影评分、下载链接等等。然后调用迅雷，实现电影的自动的下载~~~
下面是简要的一个测试，还是能够很好的获取Python的输出信息的。由于篇幅较长，我将把这部分放在下一篇的“应用下载篇”再做介绍。

好了Y(o)Y，网页爬取篇完成了！这可是花了我整整一天才完成的！（为了尽快完成，我可是一天屁股都没动一下(⊙o⊙)！）
累死我了，相约下次的“电影资源爬取之应用下载篇”！
（想到写这个也是我昨晚突发奇想的，感觉很有趣就想研究研究。以前没怎么弄过，就两天的学习和构思，有什么错的地方请多多包涵。）

本文标签：电影资源网页 Python 爬取篇

版权声明：本文标题：爬取电影资源之网页爬取篇（python）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1726058830a1053568.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

爬取电影资源之网页爬取篇（python）

1. 分析6V电影网的主页结构

2. 定位相应的标签（主网页）

3. 获取各电影的URL

4. 定位相应的标签（URL所指的网页）

5. 提取电影的信息

6. 运用迅雷下载电影

更多相关文章

使用谷歌浏览器调试PC网页、手机APP

【Python安装】2024详细安装教程。{附激活码}

Python下载百度网盘文件的实战代码

python requests请求下载百度网盘文件

python登录华为路由器

可以运行python的路由器_用python控制你的路由器

Python Django 配置QQ邮箱发送邮件

python：自动压缩指定文件夹作为附件发送邮件到指定邮箱

「Python爬虫系列讲解」十一、基于登录分析的 Selenium 微博爬虫

python 爬虫 selenium 无头浏览器设置

浏览器怎么录制网页视频？3种网页视频录制方法

解决方案：h5网页外部浏览器唤起微信分享，唤起微信面板，分享朋友圈方案，兼容大部分浏览器

亲测有效——win10自带的Edge浏览器打不开网页

python使用selenium打开chrome浏览器时带用户登录信息

python打开chrome浏览器的2种方法

Chrome浏览器全屏打开指定网页以及开机自启

python操作无界面的chrome浏览器（转）

python实用教程（二）：安装配置Pycharm及使用(Win10)

更改我的网页默认的暴风影音播放器

Python实现模拟按键刷搜狗拼音输入法字数

发表评论

推荐文章

如何给共享文件夹设置密码？共享文件夹加密的方法

浏览器的打印

史上最全的计算机网络知识点总结

树莓派CM4开机准备开发环境

win10 搭建sftp服务器

热门文章

android模拟器命令大全,玩转安卓模拟器命令行

error in .srcviewsProductView.vue?vue&amp;type=template&amp;id=5ebb49ea&amp;Module not found: Error: Can‘

Win10笔记本WIFI的标志突然变成了一个地球的解决方案（二）

真的需要一个WiFi 6路由器吗？

解决开机只剩C盘

关于传说中的AMD5600G 发热少，功耗低

Ubuntu 下安装新世纪五笔输入法

Python实现模拟按键刷搜狗拼音输入法字数

android对接单片机wifi模块

linux环境的wifi配置工具及工作模式区分介绍

最新文章

win7 系统更新服务器失败怎么办,Windows7 Update更新失败报错80070002和80070003怎么办？...

WiFi和WLAN有什么区别和联系？

公共wifi不安全家里的wifi就安全了吗？

路由器wifi热点丢包率高_使用笔记本电脑和虚拟路由器创建自己的Wifi热点

无线路由器服务器拒接,wifi被拒绝接入解决方法(图文)

Windows7系统优化（批处理）

如何给自己各种帐号编一个安全又不会忘记的密码？

ESP8266 Node mcu WIFI无线控制入门_01无线远程控制LED

看自己的Wifi是否被盗用的技巧

【Android wifi】wifi基本原理

win7、win8旗舰版系统下载、32位、64位

【智能家居篇】wifi网络接入原理（中）——认证Authentication

Android Wifi连接控制、TCP、UDP通信，6.0以上适配

网络安全--解除认证攻击wifi(详细教程)

WIFI 一键配置原理-ESP8266

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

error in .srcviewsProductView.vue?vue&type=template&id=5ebb49ea&Module not found: Error: Can‘

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载