python+selenium 爬取微博（网页版）并解决账号密码登录、短信验证|电子爱好者

admin管理员组
文章数量:1616694

使用python+selenium 爬取微博

前言
- 为什么爬网页版微博
- 为什么使用selenium
- 怎么模拟微博登录
一、事前准备
二、Selenium安装
- 关于selenium
- 安装步骤
三、selenium定位网页元素
- 基本方法
- 详细使用
最后、代码部分
- 首先，导入/安装包。
- 预处理
- 模拟登陆
- 短信验证
- 登录成功后开始爬取
- 运行结果
结语

前言

为什么爬网页版微博

网页端的微博比移动端的难爬一点，但是来网页端是因为这里可以使用高级搜索功能，它不同于普通搜索的是它可以选定发布时间和发布地点，把博文和这些爬下来可以用来做更多更全面的数据分析。

为什么使用selenium

去微博搜索某个关键词，会发现第一页的内容下拉到底后，微博会提示登录才能看到之后的页面的内容，点击登录之后它就会分页显示，最多显示到50页。
我一开始想着，那我只要分析微博的网址构造，然后用requests去打开后面页数的网址不就可以了？比如去用高级搜索功能搜索：

https://s.weibo/weibo/%25E6%2596%25B0%25E8%2583%25BD%25E6%25BA%2590%25E6%25B1%25BD%25E8%25BD%25A6%25E6%2594%25BF%25E7%25AD%2596?q=%E6%96%B0%E8%83%BD%E6%BA%90&region=custom:44:1000&typeall=1&suball=1&timescope=custom:2020-12-08:2020-12-16&Refer=g
这是上图的搜索结果的网址，不难发现：
q后面的是关键词（经过二次编码后变成了一长串的东西）；
region=custom:XX:1000，这里的XX是省份的代码；
typeall=1&suball=1 ，这两是“类型”和“包含”选项；
timescope=custom:2020-12-08:2020-12-16就是时间段。

登录后查看第二页的网址：
https://s.weibo/weibo/%25E6%2596%25B0%25E8%2583%25BD%25E6%25BA%2590%25E6%25B1%25BD%25E8%25BD%25A6%25E6%2594%25BF%25E7%25AD%2596?q=%E6%96%B0%E8%83%BD%E6%BA%90&region=custom:44:1000&typeall=1&suball=1&timescope=custom:2020-12-08:2020-12-16&Refer=g&page=2
其他都相同，就最后多了个&page=2。然后看第三页也是&page=3。再然后再第一页的最后面页加个&page=1，也能正常打开。
至此，我们就找到了网址的构造规律了。

接下来，设置变量分别代表：搜索关键词、省份对应的数字（这个得自己打开微博一个个去试）、起始年、起始月、起始日、终点年、终点月、终点日、页码。
然后通过改变变量就可以访问所有相应的网页了。
（ps：因为怕50页显示不了太多，这里起始终止的年和月变量我就用同一个了）

index="小姐姐"
sheng=34
year=2020
month=1
day1=1
day2=30
page=1

url = "https://s.weibo/weibo?q={}&region=custom:{}:1000&typeall=1&suball=1&timescope=custom:{}-{}-{}:{}-{}-{}&Refer=g&page={}".format(index, sheng, year, month, day1, year, month, day2, page)

但是问题来了，发现爬虫只能爬下第一页的数据，第二页开始的都爬不了，为什么呢？这时你退出登录，然后再复制上面的第二页的网址去打开，你就发现打开不了，跳到了登录页面，微博还是要你登录才能访问之后的内容。
哦，所以现在我们需要去模拟微博登录。

怎么模拟微博登录

用selenium模拟浏览器操作。
网上的方法大多推荐用http请求、获取cookie这些,但说实话这些对新手不太友好。
selenium可能存在有一些缺点，但它也有它的优点，selenium做爬虫的好处就是简单直接（只需要知道简单的HTML和xpath的知识就够了），而且可以通过浏览器直接看到爬取的过程，出现错误很容易发现（这不比看pycharm下面一大串的报错信息强？）。
怎么操作详情往下看。

一、事前准备

谷歌浏览器、python3.7、pycharm（这些就先自己安装吧，这里就不给教程了）

二、Selenium安装

关于selenium

selenium是一个用于Web应用程序测试的工具，selenium测试直接运行再浏览器上，就像真正的用户在操作一样。（百度百科）
简单来说，selenium就是用来模拟用户操作浏览器。

安装步骤

win+r，输入cmd，输入pip install selenium
下载ChromeDriver。
找到对应的浏览器、版本下载。
怎么查看谷歌浏览器的版本：打开谷歌浏览器，关闭按钮下面的三个点》帮助》关于Google Chrome，可以看到自己的版本。记下那串数字（比如我的是版本 87.0.4280.88）然后去下面的驱动下载网址找对应的就行。

Chrome驱动下载地址：http://npm.taobao/mirrors/chromedriver/

windows系统（不管你是32还是64位）就是这个win32的。

下载完成后，需要做两件事：
（1）.将驱动放复制到浏览器根目录下；
找到谷歌浏览器快捷方式，右键，打开文件位置，把下载的文件夹里面的那个东西粘贴进来（注意不能直接把下载的文件夹放进来，要放里面的chromedriver，下面的第二步也一样）

（2）.将驱动复制到Python根目录下。
可以打开pycharm，左边Project里面可以看到你的项目的路径，放那就行。
测试环境是否搭建成功

from selenium import webdriver

browser = webdriver.Chrome()
browser.set_window_size(1000,800)
browser.get('https://www.baidu/')

运行后可以看到新开一个浏览器窗口并在几秒内打开了百度

三、selenium定位网页元素

先学一下selenium的基本操作吧。（可以先简单看看）

基本方法

定位的方法有很多，这里主要用以下两种方式：

find_element_by_id 使用id定位元素
find_element_by_xpath 使用xpath定位元素

以上方法可以定位到网页的第一个符合该定位条件的元素，但我们写爬虫有时候需要定位这类的所有元素（比如爬取当前页面所以微博的文本内容），所以需要用下面的find_elements方法（加个s就行）。具体加不加s根据实际情况决定。

find_elements_by_id 使用id定位所有元素
find_elements_by_xpath 使用xpath定位所有元素

插一下我的启蒙教程：（up猪打钱！）
（1）https://www.bilibili/video/BV1Jx411Z7mX
（2）https://www.bilibili/video/BV1px411d7XY
观看建议：
上面的（1）是关于“Selenium安装及使用”，（2）是“登录效果实现”。
建议开1.5倍速看，里面还会介绍一下原理性的东西和一些废话，不喜欢的可以快进直到正式内容。
如果没看懂我上面的selenium安装和使用的可以去这里看看。
时间是第一个视频的第3分钟开始到第二个视频的第28分钟。

详细使用

from selenium import webdriver

browser = webdriver.Chrome()
browser

本文标签：账号密码短信网页 Python

版权声明：本文标题：python+selenium 爬取微博（网页版）并解决账号密码登录、短信验证内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1728745795a1171281.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

python+selenium 爬取微博（网页版）并解决账号密码登录、短信验证

使用python+selenium 爬取微博

前言

为什么爬网页版微博

为什么使用selenium

怎么模拟微博登录

一、事前准备

二、Selenium安装

关于selenium

安装步骤

三、selenium定位网页元素

基本方法

详细使用

更多相关文章

使用selenium浏览百度网页（Python）

在移动端实现在浏览器网页点击按钮并复制文字（且测试打开微信APP）

爬虫Selenium+Chrome 控制浏览器，打开百度网页，输入搜索关键词，点击回车，截取搜索页面

python 模拟微信浏览器请求_python爬虫:使用Selenium模拟浏览器行为

ACF206 Contemporary Topics in Screen Cultures Trimester 2 2024Python

Android破解锁屏密码（已root）

安装APK 免输入vivo、oppo密码

Keepass搭配KeePassNatMsg、KeepassXC-Browser、KeepassXC和坚果云，轻松实现全免费的密码管理 |小白零基础教程

ubuntu安装mysql 即设置root密码

利用Keepass+坚果云实现跨平台密码无缝同步！再也不用担心及记不住密码了！

python+selenium 爬取微博（网页版）并解决账号密码登录、短信验证

Gmail谷歌邮箱账号注册手机号无法验证的解决方法（喂饭级详细图文教程）

手机支付宝密码存储机制分析

mysql8.0以上版本 忘记密码怎么办 重置密码（不踩坑的完整流程）

进入登录页时，用户名输入框自动聚焦、按enter键让密码框聚焦，完整输入信息后登录

【BLE】CC2541之配对密码的重置

乐视账号服务器关闭,乐视手机重置后无法登录账号 官方给出解决方案

密码本导入模板说明

小米开机密码清除

python爬虫另辟蹊径绕过企查查的登录验证，我太冇财了

发表评论

推荐文章

vue-cil3项目打包后浏览器打开空白问题

【OAuth2系列】集成微信小程序登录到 Spring Security OAuth 2.0

Android之常见安全问题

iconfont字体图标下载

alook浏览器哪个好 夸克浏览器_简单搜索、X浏览器、夸克浏览器、Via几款极简浏览器，到底哪个最好用？...

热门文章

Python学习笔记(17)-windows和linux下的路径与文件

Linux中Vi和Vim区别

npm 打开浏览器

wamp安装后默认浏览器打开

u盘被分区了怎么还原?

重装华为服务器系统教程,服务器系统重装教程

React学习（初始）

百度地图api web获取当前位置浏览器JavaScript定位 javaweb 浏览器端

电脑开机慢

电脑白痴与黑客的对话

最新文章

Java计算机毕业设计基于的电脑DIY微信小程序演示录像220239（开题报告+源码+论文）

手机更新找不到计算机,为什么手机更新换代这么快，电脑的更新却没有这么快呢...

5000配置一台游戏型计算机,开学装机：2020年如何配一台5000元主流配置的游戏主机？...

DIY台式电脑小白教程

计算机组装 项目教学,计算机组装与维护项目教学课程.doc

2020年学计算机需要什么配置,开学装机：2020年如何配一台5000元主流配置的游戏主机？...

ITX迷你主机的优点及缺点

深度学习（3090）装机

如何搭建一台深度学习的电脑工作站

基因测序、生物信息分析平台工作站硬件配置推荐2020

计算机组装维护绪论,计算机组装与维修教案_第1章_绪论.doc

如何配置一台深度学习主机？

家用计算机做raid 2018,让电脑速度翻倍的方法，手把手教你组建RAID！

如何组装一台自己最满意的电脑

计算机主机什么硬件组成,一台计算机电脑由什么组成,电脑的基础硬件有哪些！-电脑自学网...

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

mysql8.0以上版本忘记密码怎么办重置密码（不踩坑的完整流程）

乐视账号服务器关闭,乐视手机重置后无法登录账号官方给出解决方案

alook浏览器哪个好夸克浏览器_简单搜索、X浏览器、夸克浏览器、Via几款极简浏览器，到底哪个最好用？...

计算机组装项目教学,计算机组装与维护项目教学课程.doc

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载