admin管理员组

文章数量:1650875

目录

了解什么是爬虫

安装相关的库

分析爬取的网页

写出代码


 一:了解什么是爬虫

        爬虫专业来讲就是一个探测机器,又被称为网络蜘蛛或网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

        但通俗来讲,爬虫就是模仿个人浏览网站,即爬取过程就是在模仿人的动作。

二:安装相关的库

requests-------------使用该库来进行对url的请求

bs4--------------------bs4即Beautiful Soup,bs4库是解析、遍历、维护、“标签树“的功能库

pandas---------------用于快速分析数据,以及数据清洗和准备等工作

time-------------------python时间库,用于爬取时设置时间,防止IP被封

三:分析爬取的网页

今天爬取的网页为酷狗排行榜

URL="酷狗飙升榜_排行榜_乐库频道_酷狗网"

点击F12,找到请求头,即:Request Headers

本文标签: 爬虫酷狗并保存排行榜Python