爬虫 + 自动化利器 selenium 之自学成才篇（一）

admin管理员组
文章数量:1538443

一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。

二、Python必备开发工具

工具都帮大家整理好了，安装就可直接上手！

三、最新Python学习笔记

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。

四、Python视频合集

观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

五、实战案例

纸上得来终觉浅，要学会跟着视频一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

六、面试宝典

简历模板

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

文章目录

- selenium 简介
  - selenium安装
  - 安装浏览器驱动
  - - 确定浏览器版本
      - 下载驱动
  - 定位页面元素
  - - 打开指定页面
      - id 定位
      - name 定位
      - class 定位
      - tag 定位
      - xpath 定位
      - css 定位
      - link 定位
      - partial_link 定位
  - 浏览器控制
  - - 修改浏览器窗口大小
      - 浏览器前进&后退
      - 浏览器刷新
      - 浏览器窗口切换
      - 常见操作
  - 鼠标控制
  - - 单击左键
      - 单击右键
      - 双击
      - 拖动
      - 鼠标悬停
  - 键盘控制

❤ 系列内容 ❤
爬虫+自动化利器 selenium 之自学成才篇（一）
主要内容：selenium 简介、selenium 安装、安装浏览器驱动、8 种方式定位页面元素、浏览器控制、鼠标控制、键盘控制

爬虫+自动化利器 selenium 之自学成才篇（二）
主要内容：三种等待方式（显式等待、隐式等待、强制等待）、一组元素的定位方式、切换操作（窗口切换、表单切换）、弹窗处理等。

爬虫+自动化利器 selenium 之自学成才篇（三）
主要内容：文件上传 & 下载、cookie 操作、调用 JavaScript（滑动滚动条）、关闭操作、页面截图等。

selenium 简介

Selenium 是最广泛使用的开源 Web UI（用户界面）自动化测试套件之一。Selenium 支持的语言包括C#，Java，Perl，PHP，Python 和 Ruby。目前，Selenium Web 驱动程序最受 Python 和 C＃欢迎。 Selenium 测试脚本可以使用任何支持的编程语言进行编码，并且可以直接在大多数现代 Web 浏览器中运行。在爬虫领域 selenium 同样是一把利器，能够解决大部分的网页的反爬问题，但也不是万能的，它最明显的缺点就是速度慢。下面就进入正式的 study 阶段。

selenium安装

打开 cmd，输入下面命令进行安装。

pip install -i https://pypi.douban/simple selenium

执行后，使用 pip show selenium 查看是否安装成功。

安装浏览器驱动

针对不同的浏览器，需要安装不同的驱动。下面列举了常见的浏览器与对应的驱动程序下载链接，部分网址需要 “科学上网” 才能打开哦（dddd）。

Firefox 浏览器驱动：Firefox
Chrome 浏览器驱动：Chrome
IE 浏览器驱动：IE
Edge 浏览器驱动：Edge
PhantomJS 浏览器驱动：PhantomJS
Opera 浏览器驱动：Opera

这里以安装 Chrome 驱动作为演示。但 Chrome 在用 selenium 进行自动化测试时还是有部分 bug ，常规使用没什么问题，但如果出现一些很少见的报错，可以使用 Firefox 进行尝试，毕竟是 selenium 官方推荐使用的。

确定浏览器版本

在新标签页输入 chrome://settings/ 进入设置界面，然后选择【关于 Chrome】

查看自己的版本信息。这里我的版本是94，这样在下载对应版本的 Chrome 驱动即可。

下载驱动

打开 Chrome驱动。单击对应的版本。

根据自己的操作系统，选择下载。

下载完成后，压缩包内只有一个 exe 文件。

将 chromedriver.exe 保存到任意位置，并把当前路径保存到环境变量中（我的电脑>>右键属性>>高级系统设置>>高级>>环境变量>>系统变量>>Path），添加的时候要注意不要把 path 变量给覆盖了，如果覆盖了千万别关机，然后百度。添加成功后使用下面代码进行测试。

from selenium import webdriver

# Chrome浏览器
driver = webdriver.Chrome()

定位页面元素

打开指定页面

使用 selenium 定位页面元素的前提是你已经了解基本的页面布局及各种标签含义，当然如果之前没有接触过，现在我也可以带你简单的了解一下。
以我们熟知的 CSDN 为例，我们进入首页，按 【F12】 进入开发者工具。红框中显示的就是页面的代码，我们要做的就是从代码中定位获取我们需要的元素。

想要定位并获取页面中的信息，首先要使用 webdriver 打开指定页面，再去定位。

from selenium import webdriver

# Chrome浏览器
driver = webdriver.Chrome()
driver.get('https://www.csdn/')

执行上面语句后会发现，浏览器打开 CSDN 主页后会马上关闭，想要防止浏览器自动关闭，可以添加下面代码。

# 不自动关闭浏览器
option = webdriver.ChromeOptions()
option.add_experimental_option("detach", True)

# 将option作为参数添加到Chrome中
driver = webdriver.Chrome(chrome_options=option)

这样将上面的代码组合再打开浏览器就不会自动关闭了。

from selenium import webdriver

# 不自动关闭浏览器
option = webdriver.ChromeOptions()
option.add_experimental_option("detach", True)

# 注意此处添加了chrome\_options参数
driver = webdriver.Chrome(chrome_options=option)
driver.get('https://www.csdn/')

下面我们再来看看几种常见的页面元素定位方式。

id 定位

标签的 id 具有唯一性，就像人的身份证，假设有个 input 标签如下。

<input id="toolbar-search-input" autocomplete="off" type="text" value="" placeholder="C++难在哪里？">

我们可以通过 id 定位到它，由于 id 的唯一性，我们可以不用管其他的标签的内容。

driver.find_element_by_id("toolbar-search-input")

name 定位

name 指定标签的名称，在页面中可以不唯一。假设有个 meta 标签如下

<meta name="keywords" content="CSDN博客,CSDN学院,CSDN论坛,CSDN直播">

我们可以使用 find_element_by_name 定位到 meta 标签。

driver.find_element_by_name("keywords")

class 定位

class 指定标签的类名，在页面中可以不唯一。假设有个 div 标签如下

<div class="toolbar-search-container">

我们可以使用 find_element_by_class_name 定位到 div 标签。

driver.find_element_by_class_name("toolbar-search-container")

tag 定位

每个 tag 往往用来定义一类功能，所以通过 tag 来识别某个元素的成功率很低，每个页面一般都用很多相同的 tag ，比如：\<div\>、\<input\> 等。这里还是用上面的 div 作为例子。

<div class="toolbar-search-container">

我们可以使用 find_element_by_class_name 定位到 div 标签。

driver.find_element_by_tag_name("div")

xpath 定位

xpath 是一种在 XML 文档中定位元素的语言，它拥有多种定位方式，下面通过实例我们看一下它的几种使用方式。

<html>
  <head>...<head/>
  <body>
    <div id="csdn-toolbar">
      <div class="toolbar-inside">
        <div class="toolbar-container">
          <div class="toolbar-container-left">...</div>
          <div class="toolbar-container-middle">
            <div class="toolbar-search onlySearch">
			<div class="toolbar-search-container">
				<input id="toolbar-search-input" autocomplete="off" type="text" value="" placeholder="C++难在哪里？">

根据上面的标签需要定位最后一行 input 标签，以下列出了四种方式，xpath 定位的方式多样并不唯一，使用时根据情况进行解析即可。

# 绝对路径（层级关系）定位
driver.find_element_by_xpath(
	"/html/body/div/div/div/div[2]/div/div/input[1]")
# 利用元素属性定位
driver.find_element_by_xpath(
	"//\*[@id='toolbar-search-input']"))
# 层级+元素属性定位
driver.find_element_by_xpath(
	"//div[@id='csdn-toolbar']/div/div/div[2]/div/div/input[1]")
# 逻辑运算符定位
driver.find_element_by_xpath(
	"//\*[@id='toolbar-search-input' and @autocomplete='off']")

css 定位

CSS 使用选择器来为页面元素绑定属性，它可以较为灵活的选择控件的任意属性，一般定位速度比 xpath 要快，但使用起来略有难度。
CSS 选择器常见语法：

方法	例子	描述
.class	`.toolbar-search-container`	选择 `class = 'toolbar-search-container'` 的所有元素
#id	`#toolbar-search-input`	选择 `id = 'toolbar-search-input'` 的元素
*	`*`	选择所有元素
element	`input`	选择所有 `<input\>` 元素
element>element	`div>input`	选择父元素为 `<div\>` 的所有 `<input\>` 元素
element+element	`div+input`	选择同一级中在 `<div\>` 之后的所有 `<input\>` 元素
[attribute=value]	`type='text'`	选择 `type = 'text'` 的所有元素

举个简单的例子，同样定位上面实例中的 input 标签。

driver.find_element_by_css_selector('#toolbar-search-input')
driver.find_element_by_css_selector('html>body>div>div>div>div>div>div>input')

link 定位

link 专门用来定位文本链接，假如要定位下面这一标签。

<div class="practice-box" data-v-04f46969="">加入！每日一练</div>

我们使用 find_element_by_link_text 并指明标签内全部文本即可定位。

driver.find_element_by_link_text("加入！每日一练")

partial_link 定位

partial_link 翻译过来就是“部分链接”，对于有些文本很长，这时候就可以只指定部分文本即可定位，同样使用刚才的例子。

<div class="practice-box" data-v-04f46969="">加入！每日一练</div>

我们使用 find_element_by_partial_link_text 并指明标签内部分文本进行定位。

driver.find_element_by_partial_link_text("加入")

浏览器控制

修改浏览器窗口大小

from selenium import webdriver

# Chrome浏览器
driver = webdriver.Chrome()
driver.get('https://www.csdn/')
# 设置浏览器浏览器的宽高为：600x800
driver.set_window_size(600, 800)

使用 maximize_window() 方法可以实现浏览器全屏显示。

from selenium import webdriver

# Chrome浏览器
driver = webdriver.Chrome()
driver.get('https://www.csdn/')
# 设置浏览器浏览器的宽高为：600x800
driver.maximize_window()

浏览器前进&后退

webdriver 提供 back 和 forward 方法来实现页面的后退与前进。下面我们 ①进入CSDN首页，②打开CSDN个人主页，③back 返回到CSDN首页，④ forward 前进到个人主页。

from selenium import webdriver
from time import sleep

driver = webdriver.Chrome()

# 访问CSDN首页
driver.get('https://www.csdn/')
sleep(2)
#访问CSDN个人主页
driver.get('https://blog.csdn/qq\_43965708')
sleep(2)
#返回（后退）到CSDN首页
driver.back()
sleep(2)
#前进到个人主页
driver.forward()

细心的读者会发现第二次 get() 打开新页面时，会在原来的页面打开，而不是在新标签中打开。如果想的话也可以在新的标签页中打开新的链接，但需要更改一下代码，执行 js 语句来打开新的标签。

（1）Python所有方向的学习路线（新版）

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

最近我才对这些路线做了一下新的更新，知识体系更全面了。

（2）Python学习视频

包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门来说是没问题的，学完这些之后，你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

（3）100多个练手项目

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了，只是里面的项目比较多，水平也是参差不齐，大家可以挑自己能做的项目去练练。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

本文标签：自学成才爬虫利器 selenium

版权声明：本文标题：爬虫 + 自动化利器 selenium 之自学成才篇（一）_selenium detach 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1726975694a1092763.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

爬虫 + 自动化利器 selenium 之自学成才篇（一）_selenium detach

简历模板

文章目录

selenium 简介

selenium安装

安装浏览器驱动

确定浏览器版本

下载驱动

定位页面元素

打开指定页面

id 定位

name 定位

class 定位

tag 定位

xpath 定位

css 定位

link 定位

partial_link 定位

浏览器控制

修改浏览器窗口大小

浏览器前进&后退

更多相关文章

【自媒体创作利器】AI白日梦+ChatGPT 三分钟生成爆款短视频

使用selenium打开带有插件的Chrome浏览器

selenium控制已经打开的chrome浏览器

关于Selenium启动Chrome浏览器闪退问题

selenium开启chrome浏览器的debug模式

从零开始学Python爬虫系列：写好的python文本如何自动运行？Windows自动开机并启动python

AI编程案例003 ChatGPT写爬虫程序-通过搜狗搜索抓取微信公众号文章

英语翻译太难？我一怒之下用爬虫写了两个翻译脚本

Python+openpyxl+selenium实现自动翻译中英文脚本！

crawlergo：强大的浏览器爬虫工具

Python selenium 控制 360安全浏览器

python360安全浏览器_python3.7--pycharm selenium自启360浏览器360极速浏览器方法

Selenium调用使用360浏览器,QQ浏览器,遨游浏览器,猎豹浏览器,Chromium

如何使用Selenium WebDriver 驱动360 浏览器

使用selenium调用qq游览器(基于Chrome浏览器)

限量预售|超强扩展、高性能H7芯片，您的DIY利器——ART-Pi 来啦！

python3+selenium如何正确驱动360浏览器打开网页

Selenium操作360浏览器

资源下载的终极利器-资源轻松简单下载-资源万能下载法

python爬虫,selenium+chromedriver,谷歌驱动自动下载及配置

发表评论

推荐文章

360安全浏览器和360chrome 首页设置加密算法(逆向所得）

linux虚拟机按键不好用,虚拟机(vmware)linux中ctrl按键失灵 解决办法

利用MS17-010渗透win7（32位）

SpringBoot 前后端日期格式转换

盘点谷歌浏览器中的一些神级插件

热门文章

linux zookeeper 不能启动,查看 输出日志 Failed to process transaction type: 1 error: KeeperErrorCode = NoNode

com.thoughtworks.xstream

Qt之高仿QQ系统设置界面

常见GPU卡精度支持一览表

360浏览器 | 如何从360浏览器中恢复你的密码

电脑C盘满了怎么办？请放心删除这些文件夹

使用FFMPEG将speex音频格式转为mp3和ogg格式

【python3】批量将xls和csv格式转换成xlsx格式文件

谷歌浏览器设置代理服务器

关于如何设置谷歌浏览器禁止检查ajax跨域问题的解决方案

最新文章

谷歌调试h5app

python2.7 + 谷歌浏览器 实现模拟浏览器爬虫

谷歌浏览器插件扩展引起的报错 Unchecked runtime.lastError: The message port closed before a response was received.

获取chrome谷歌浏览器打开多网页后的窗口句柄，并操作该网页窗口（窗口大小，位置等）

如何关闭谷歌浏览器Software Reporter Tool进程

Windows桌面小程序+谷歌浏览器+人工智能算法 = 100+职位一键投递

Angular最新教程-第三节在谷歌浏览器中调试Angular

如何为谷歌浏览器安装 react-devtools?

【问题解决手记】通过设置chrome浏览器(谷歌浏览器)解决前端跨域问题

如何打包谷歌浏览器Chrome的扩展程序

【自用】谷歌浏览器百度（阿里）网盘在线倍速播放

谷歌浏览器如何抓取没有加密过得m3u8格式的.st文件(视频)并合并

chrome的app模式和全屏模式

react 谷歌浏览器报错：Uncaught TypeError: Cannot read properties of undefined (reading ‘forEach‘)

解决谷歌浏览器无法读取本地js文件

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

linux虚拟机按键不好用,虚拟机(vmware)linux中ctrl按键失灵解决办法

linux zookeeper 不能启动,查看输出日志 Failed to process transaction type: 1 error: KeeperErrorCode = NoNode

python2.7 + 谷歌浏览器实现模拟浏览器爬虫

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载