admin管理员组

文章数量:1531792

from bs4 import BeautifulSoup # 网页解析,获取数据
import re # 正则表达式,进行文字匹配
import urllib.request,urllib.error # 指定URL,获取网页数据
import xlwt # 进行excel操作
import sqlite3 # 进行SQLite数据库操作

主函数

def main():
baseurl = “https://movie.douban/top250?start=”
# 1.爬取网页
datalist = getData(baseurl)
# 2.解析网页
# 3.保存数据

爬取网页函数

def getData(baseurl):
datalist = []
for i in range(0,10):
n = str(i*25) # 页数
url = baseurl + n # 每一页的网址
html = askURL(url) # 访问每一个网页的内容
datalist.append(html)

return datalist

得到指定一个url的网页内容函数

def askURL(url):
# 模拟浏览器头部信息,向豆瓣服务器发送消息(伪装)
# 用户代理,表示告诉豆瓣服务器,我们是什么类型的机器/浏览器(本质上告诉浏览器,我们可以接受什么水平的文件内容)
head = {“User-Agent”: “Mozilla/5.0 (Windows NT 10.0;

本文标签: 爬虫网页基础网站Python