admin管理员组

文章数量:1530085

用python实现的抓取腾讯视频所有电影的爬虫

1.  # -*- coding: utf-8 -*-

2.  import re

3.  import urllib2

4.  from bs4 import BeautifulSoup

5.  import string, time

6.  import pymongo

8.  NUM = 0 #全局变量,电影数量

9.  m_type = u'' #全局变量,电影类型

10.  m_site = u'qq' #全局变量,电影网站

12.  #根据指定的URL获取网页内容

13.  def gethtml(url):

14.  req = urllib2.Request(url)

15.  response = urllib2.urlopen(req)

16.  html = response.read()

17.  return html

18.  '''

19.  在学习过程中有什么不懂得可以加我的python学习交流扣扣qun,784758214,群里有不错的学习教程与开发工具。

20.  '''

22.  #从电影分类列表页面获取电影分类

23.  def gettags(html):

24.  global m_type

25.  soup = BeautifulSoup(html) #过滤出分类内容

26.  #print soup

27.  #<ul  gname="mi_type" gtype="1">

28.  tags_all = soup.find_all('ul', {'class

本文标签: 爬虫腾讯实战源码电影