admin管理员组

文章数量:1542474

二、爬取网页

1.模仿浏览器

当浏览器对网址进行访问时,首先需要向服务器发送一个访问请求,并且将浏览器自身的一些信息发送给服务器,服务器接收到浏览器发送的信息之后开始检查,看这个“浏览器”是否有访问的权限,以及可以接受什么样的文件,然后服务器才能将信息发送到相应的浏览器上呈现给用户。

那么显而易见,我们现在要做的事情就是 模仿浏览器 给服务器发送信息:用户代理(User-Agent)!至于这个用户代理具体的含义以及用法还不是很清楚,但是可以简单的理解为我的浏览器的一个标志,表示我们是一个浏览器,而不是爬虫。

2.实例分析

下面以豆瓣为例,爬取前250名的高分电影的信息。其中需要导入一些包,包括网页解析、网页访问的和一些数据库操作的包。先来进行获取网页数据,对于解析和保存后面再慢慢学习。

(1)代码
# 导入所用到的包
from bs4 import BeautifulSoup      # 网页解析,获取数据
import re        # 正则表达式,进行文字匹配
import urllib.request,urllib.error    # 指定URL,获取网页数据
import xlwt      # 进行excel操作
import sqlite3   # 进行SQLite数据库操作

# 主函数
def main():
    baseurl = "https://movie.douban/top250?start="
    # 1.爬取网页
  

本文标签: 爬虫网页基础最新网站