admin管理员组

文章数量:1530845

不知道大家平常喜不喜欢待在宿舍一个人看电影?
作为一个高龄屌丝,电影对我来说是必不可少的。平常无聊时自己一个人待在宿舍看看电影,看看书。
(人闲下来就会胡思乱想,不能让寂寞侵蚀自己的内心)

其实还是喜欢和朋友一起去看电影的,更有气氛,有感觉点。可惜几个朋友都和我一样是钢铁男,极其尴尬(⊙o⊙)!
哈哈哈。。。

所以呢,我都是自己在网上找些电影资源来消遣时间,像电影天堂、6V电影网等等(你们有什么好的资源可以推荐推荐一下 (✪ω✪))。
只不过这些网站上的资源很多很杂,良莠不齐。虽然悠闲,但起码也要看些好看的电影是吧。

平常我就每一个链接点击,查看有哪些新电影,再看看评分,然后看看剧情,最后才把满意的电影用迅雷下载下来。
很慢,比较烦人,而且还会弹出一些“莫名其妙”的广告 ,尴尬至极。。。
因此,这次我就给大家分享一下:用爬虫爬取一下电影资源(以6V电影网为例),过滤掉无关信息,提高效率。(既节约时间,又有逼格 )。当然,假如你平常都是和别人一起去电影院看电影的,那就不用看了 (羡慕嫉妒╭(╯^╰)╮)。好,开始发车!!!!

首先说说爬虫,简单来说就是写一个自动化程序向网络服务器请求数据(通常是用 HTML表单或其他网页文件),然后对数据进行解析,提取需要的信息。(具体是什么概念你们自己上网查吧,其实我也才学几天 (๑>︶<๑))
我的整个设计流程如下:

1. 分析6V电影网的主页结构

6V电影网的主页分为三列,如下图所示。

该网每天会推荐一些电影(如上图中的“今日推荐”),电影质量还算可以,大部分电影评分还行。所以这部分及是我们现在要提取的部分。
然后我们查看其源码,找到该部分的代码(还是很好找的,网页结构比较简单)见下图:

为了验证找到的代码区域是否为我们需要的,可以把图中框出的代码复制到一个text文件里,然后更改为html文件,再打开,看是否值包含我们需要的部分(今日推荐部分),见下图:

2. 定位相应的标签(主网页)

下面是一段上面定位部分的开始几段代码:

<div id="main">
	<div class="col1">
    	<div class="box">
        	<h3>今日推荐</h3>
           <ul class="pic">
           	<li><a	href="http://www.hao6v/dy/2018-09-13/DZD6QMWJ.html" target="_blank"><img  src="https://tu.66vod/2018/3489.jpg" alt="2018高分动作《碟中谍6:全面瓦解》1080p.国英双语.BD中英双字">

可以看出 “今日推荐”区域(电影,不包括该区域的电视剧部分)是在<div id="main">,<div class="col1">的元素块里,且有个明显的标识是<h3>今日推荐</h3>
电影的资源链接在href=http://www.hao6v/dy/2018-09-13/DZD6QMWJ.html这个部分;
电影的图片资源在src=https://tu.66vod/2018/3489.jpg这个部分;
电影的名字在alt="2018高分动作《碟中谍6:全面瓦解》1080p.国英双语.BD中英双字"这个部分。

3. 获取各电影的URL

根据前面的分析,利用Python以及BeautifulSoup的库实现电影的URL的提取:
提取结果如下:

4. 定位相应的标签(URL所指的网页)


电影的下载页面分为两列,我们需要的在右边一列。
同样通过查看网页的源码,来定位下载链接及其他相关信息的标签位置。

从上面可以看出电影的描述信息可在<meta name="description" content="”<br /> 这个部分获取;
下载链接在<table cellspacing="1" cellpadding="10" width="100%" bgcolor="#0099cc" border="0">这个部分。

5. 提取电影的信息

已经知道信息的位置,现在就是写代码来自动提取了。
获取豆瓣评分的代码:
结果:
获取下载链接的代码:

结果:(电驴和磁力链接)

6. 运用迅雷下载电影

把提取的下载链接直接复制,然后打开迅雷,就可以进行下载了。我自己测试了一下,没问题!

好了到现在电影信息的爬取就完成了!而且在我coding过程中,网页刷新了3次,代码没有因为网页刷新而出BUG!(当然,其他BUG出了一大堆 )。
接下来打算用C#写个界面,显示爬取的信息,像电影名称、电影评分、下载链接等等。然后调用迅雷,实现电影的自动的下载~~~
下面是简要的一个测试,还是能够很好的获取Python的输出信息的。由于篇幅较长,我将把这部分放在下一篇的“应用下载篇”再做介绍。

好了Y(o)Y,网页爬取篇完成了!这可是花了我整整一天才完成的!(为了尽快完成,我可是一天屁股都没动一下(⊙o⊙)!)
累死我了,相约下次的“电影资源爬取之应用下载篇”!
(想到写这个也是我昨晚突发奇想的,感觉很有趣就想研究研究。以前没怎么弄过,就两天的学习和构思,有什么错的地方请多多包涵。)

本文标签: 电影资源网页Python爬取篇