Python爬虫开发（四）：动态加载页面的解决方案与爬虫代理|电子爱好者

admin管理员组
文章数量:1547229

0x00 前言

如果读者读过我前面的关于爬虫的文章，应该大概都清楚我们现在可以对一个静态的web页面”为所欲为“了，但是技术的发展总是没有止境的，仅仅是这样对静态页面处理远远不够，要知道现在很多的web页面有意无意为了防止静态爬虫使用ajax技术动态加载页面，这就导致了在面对这些网站的时候，我们前面的技术并不能起到什么很好的效果，所以，我在本系列文章开头就说了会提供动态加载网页的解决方案，在这篇文章里，笔者就在这里提出这个解决方案，用来解决以前我们没有办法的问题。

0x01 动态页面解决方案Selenium+PhantomJS

Python2（或Python3）      本文使用Python2.7.11

Selenium                            自动化web测试解决方案

PhantomJS                         一个没有图形界面的浏览器

0x02 原理回顾对比

讨论:讲selenium自动化测试技术应用于爬虫数据挖掘，其实我也是经历了一段时间的思考，有一些基础的朋友们可能会知道，BeautifulSoup这种完全基于静态的web页面分析是没有办法执行JS的，但是我们在使用web的过程中，基本不可能不用到JS脚本，当时我就想寻找一个JS引擎整合BeautifulSoup，然后计划使用Spidermonkey这个技术，如果需要这么做的话，我们会发现，我们不仅要用BeautifulSoup爬取页面的目标元素，而且还要考虑爬取JS脚本，在执行这些js脚本后，我们还需要再次分析这些脚本返回的数据或者是对HTML页面产生的影响，我觉得这样加大了太多的不确定因素，我们不想花太多的时间放在脚本编写上，既然选用Python，就要发挥它的巨大Pythonic的优势。然后还有一个解决方案就是 Ghost.py,github主页。我想也许我们通过这个方案介绍的不仅仅是爬虫，也可能是一个新世界的大门，所以我还是选择selenium吧，web自动化测试的一整套解决方案。

其实我们从BeautifulSoup的解决方案过度到selenium的方案就是一个思维上的“退步“的过程，从直接HTML解析->分析JS->webkit->索性直接用headless浏览器来操作web页面的selenium。

所以也就是说，我们接下来要讨论的selenium用于爬虫和以前学习的静态页面处理有着本质的区别，可以认为对我们来说是一个全新的技术。

0x03 Quick Start

在这里我们首先可以很负责任的说，通过以下的例子并不会让读者完全掌握selenium的使用，但是通过动手，大家可以了解到selenium是非常好用并且并不输于BeautifulSoup的(也许这两个并不是一个级别并不能比较)。但是可以说BeautifulSoup中的定位元素，在selenium中都可以做到，而且Selenium可以设置等待时间让页面完成加载，或者设置条件让web页面加载出我们所需要的数据然后再获取数据。

下载与安装：

首先我们需要下载要给PhantomJS浏览器from

本文标签：爬虫加载解决方案页面动态

版权声明：本文标题：Python爬虫开发（四）：动态加载页面的解决方案与爬虫代理内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1727191684a1101496.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Python爬虫开发（四）：动态加载页面的解决方案与爬虫代理

0x00 前言

0x01 动态页面解决方案Selenium+PhantomJS

0x02 原理回顾对比

0x03 Quick Start

下载与安装：

更多相关文章

【BlueStack,最简单的root解决方案】

winpe加载raid_WinPE如何添加RAID驱动|WinPE添加RAID驱动教程

Photoshop优化网站图片大小提高网站加载速度

Javascript的新领域——动态图片处理之SVG

微信打开手机浏览器跳转指定页面打开下载链接

uniapp 安卓 跳转到系统浏览器_uniapp如何实现跳转至浏览器,uniapp页面跳转

微信浏览器禁止下载APP文件的解决方案

利用ChatGPTLoader加载和分析ChatGPT对话数据

文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）

E14S服务器加载raid驱动文件,RIS镜像中添加网卡和RAID卡驱动

day01python爬虫

家用动态IP配置DDNS

操作系统找不到已输入的环境选项解决方案

基于SpringBoot的装修选购网站+99192（免费领源码）可做计算机毕业设计JAVA、PHP、爬虫、APP、小程序、C#、C++、python、数据可视化、大数据、全套文案

关于MacBook Pro 19款能连上WiFi却无法上网问题解决方案The site can’t be reached

最小化方式安装centos7无法上网问题解决方案

电脑用时间长了卡顿的解决方案

Day01—初识爬虫

Python爬虫开发（四）：动态加载页面的解决方案与爬虫代理

Scoop的使用@基础和进阶使用@Scoop中文用户@多版本切换和快捷方式修复等常见问题及其解决方案

发表评论

推荐文章

Android 请求Root权限代码

科学计算机故障,科学网—计算机常见故障和解决办法 - 李卓哲的博文

面试｜2021 菜鸟金三银四铜五 Android 被锤历程出炉...

一次折腾人的打印机使用问题排查经历

如何利用EasyRecovery工具进行数据恢复

热门文章

Linux学习之如何让普通用户获得ROOT权限

Xshell &amp; Xftp &amp; XManager &amp; MobaXterm

家用计算机硬件升级方案,旧电脑如何升级？旧电脑配置升级推荐方案

Claude3、AI绘画、免费工具应有尽有！AskManyAI助你提升工作效率

系统制作U盘两种方法及优缺点-UltraISO和Win32DiskImager，制作后怎么清空U盘恢复正常使用

编程思想之c语言课程设计--管理系统例子

数据恢复免费版工具大比拼，哪款才是你的“救星”？

再不努力，你就老了

网络安全基础之计算机硬件介绍(上)

手机软件测试规范(含具体用例)

最新文章

测试面试问题总汇

数据库-MYSQL安装配置和删除

Scoop的使用@基础和进阶使用@Scoop中文用户

Windows 固定快捷方式到任务栏

解决EAapp登录闪退问题的方法

智能试卷管理系统

ubuntu学习笔记

Windows系统维护与优化：Dism++ 10.1.1000.52使用指南

Windows系统中shell32.dll文件常见故障与修复策略

《Web安全攻防 渗透测试实战指南》学习笔记(7) - 其余漏洞总结

《一家之主Man of the House》游戏DLL文件修复：简单步骤轻松搞定

3Dmax各类问题汇总及其完整解决方法

【数据分析】帆软报表迁移-centos7+tomcat7.0+jdk1.8

Windows10系统下忘记MySQL5.7的root密码怎么办（详细版教程，亲测可用）？

Windows系统的各种疑难杂症和小技巧

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

uniapp 安卓跳转到系统浏览器_uniapp如何实现跳转至浏览器,uniapp页面跳转

Xshell & Xftp & XManager & MobaXterm

《Web安全攻防渗透测试实战指南》学习笔记(7) - 其余漏洞总结

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载