Java + Selenium + Chrome抓取页面元素（支持Linux环境和Windows环境）|电子爱好者

admin管理员组
文章数量:1665479

前言

尝试过Htmlunit和PhantomJS都无法抓取JS动态生成的页面，这两种方式实际抓取的都是原页面并不是js渲染之后的页面，后来经过尝试终于确定 Selenium + Chrome的方式能抓取js渲染之后的界面，其中也有不少坑，在这里记录一下。

一、下载chromedriver

chromedriver和谷歌版本需要严格对应
下载地址chromedriver
根据谷歌版本下载对应的chromedriver

依赖，高版本的selenium依赖只需要第一个，不用第二个依赖，但经过尝试，高版本的依赖可能会出现问题

<!-- https://mvnrepository.com/artifact/org.seleniumhq.selenium/selenium-java -->
        <dependency>
            <groupId>org.seleniumhq.selenium</groupId>
            <artifactId>selenium-java</artifactId>
            <version>3.11.0</version>
        </dependency>

        <!-- https://mvnrepository.com/artifact/com.google.guava/guava -->
        <dependency>
            <groupId>com.google.guava</groupId>
            <artifactId>guava</artifactId>
            <version>24.1-jre</version>
        </dependency>

代码

public class webdriver {
    public static void main(String[] args){
        System.getProperties().setProperty("webdriver.chrome.driver",
                "D:\\web_driver\\chromedriver.exe");
        ChromeOptions options = new ChromeOptions();
        // 无界面参数，使用后不会打开浏览器，linuxx环境必须加入
        options.addArguments("--headless");
        //禁用沙盒
        options.addArguments("--no-sandbox");
        options.addArguments("--disable-gpu");
        options.addArguments("--disable-dev-shm-usage");
        WebDriver webDriver = new ChromeDriver(options);
//        webDriver.manage().window().maximize();
        webDriver.get("https://www.baidu/");
       try {
            Thread.sleep(10000);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
        System.out.println(webDriver.getPageSource());
        webDriver.close();

    }

}

有一块代码相当重要

try {
     Thread.sleep(10000);
 } catch (InterruptedException e) {
     e.printStackTrace();
 }

没有这段代码获取到的页面是未渲染的页面

二、linux环境

linux环境：centos7+，内核版本 _x86
centos7以下版本装不上chrome，linux内核为aarch64也装不上

查看linux内核版本
uname -a

安装chrome

配置chrome yum下载源：
在目录 /etc/yum.repos.d/ 下新建文件 google-chrome.repo

touch google-chrome.repo

在google-chrome.repo添加内容

#编辑google-chrome.repo
vi /etc/yum.repos.d/google-chrome.repo
#添加内容
[google-chrome]
name=google-chrome
baseurl=http://dl.google.com/linux/chrome/rpm/stable/$basearch
enabled=1
gpgcheck=1
gpgkey=https://dl-ssl.google.com/linux/linux_signing_key.pub

安装chrome

yum -y install google-chrome-stable --nogpgcheck

linux环境对不上的可能会报缺少依赖的错误
安装目录在/usr/bin/下

查看安装的chrome版本

/usr/bin/google-chrome -version

安装chromedriver
根据上面的chromedriver链接查看对应的chromedriver下载地址

#使用wget命令下载，这是85.0.4183版本谷歌对应的 driver
wget https://cdn.npm.taobao.org/dist/chromedriver/85.0.4183.87/chromedriver_linux64.zip
#使用unzip 命令解压
unzip chromedriver_linux64.zip
#将chromedriver 移至/usr/bin目录
mv chromedriver /usr/bin/chromedriver
#赋予权限
chomod 777 chromedriver

完成

！！！注意

上面的代码不能直接在liunx环境用，实用上面的代码只能获取到为渲染的页面
要获取到渲染后的页面必须在

webDriver.get("https://www.baidu/");

这段代码前加上

try {
  Thread.sleep(10000);
} catch (InterruptedException e) {
   e.printStackTrace();
}

完成

欢迎访问我的个人博客

本文标签：环境元素页面 selenium Java

版权声明：本文标题：Java + Selenium + Chrome抓取页面元素（支持Linux环境和Windows环境）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1730043579a1220537.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Java + Selenium + Chrome抓取页面元素（支持Linux环境和Windows环境）

前言

一、下载chromedriver

二、linux环境

安装chrome

！！！注意

欢迎访问我的个人博客

更多相关文章

163邮箱登录页面在哪儿？如何在手机、电脑上登陆163邮箱？

根据Email地址跳转到相应的邮箱登录页面

python3+selenium实现qq邮箱登陆并发送邮件

java+selenium自动化测试网易邮箱从登陆到发送邮件

根据用户输入的Email跳转到相应的邮箱登录页面【蕃薯耀分享】

Windows环境下安装Redis并设置Redis开机自启

超漂亮的纯JAVA浏览器（附源码）

在Chrome浏览器中点击链接，打开IE浏览器，跳转到指定页面并传递参数

java jar包加密保护解决方案

java学习路线

乔戈里推荐的新版Java学习路线，开源！

面试题及答案_Java

java winrar_WinRAR5.60官方无广告正式版

win7 64位系统及开发环境重装后的总结

Selenium Chrome驱动安装(windows系统)

chrome支持java插件,如何配置Chrome的Java插件，以便它使用机器中现有的JDK

Chrome的版本和Selenium支持的版本不一致

关于selenium配置Chrome驱动（Windows系统）

Centos7 安装chrome selenium python

Linux编程第一篇：已经下载好镜像时Linux环境的安装(第二个方案)

发表评论

推荐文章

华为手机怎样恢复Android,华为手机怎么恢复出厂设置 华为恢复出厂设置的两种方法...

office安装时显示已有32位的，无法安装64位

Alienware m17 R3 原厂Win10系统包下载指南

20131219中彩网络技术

【为什么用Linux】

热门文章

Spring Boot+Mybatis+thymeleaf开发的高仿今日头条新闻网站

angularjs学习总结 详细教程

两台电脑，同一局域网之下，页面可以访问，但是数据库连接不上，看这个文档，很好

mac中Excel常用快捷键

WORD中的表格如何快捷键添加一行

中国移动oa办公系统

手机电子邮件设置exchange方式登录163邮箱

苹果将推出“Apple Intelligence”AI系统，专注于隐私和广泛应用｜TodayAI

Killer KCC（Killer control centerKiller Intelligence Center）安装失败问题解决 Windows 10 应用需要FAT32或ExFAT格式

Edge Intelligence：边缘计算与人工智能的结合

最新文章

win10环境向移动固态硬盘安装Ubuntu 18.04.3 LTS系统（即插即用）

Jetson AGX Xavier 固态硬盘安装并挂载到home与无线模块安装

新固态硬盘安装操作系统

固态硬盘安装系统

VMware ESXI 8.0 SSD固态硬盘安装、磁盘RAID制作后未被识别为SSD的解决办法

SSD固态硬盘安装后：AS SSD Benchmark检测pciide-BAD解决办法

固态硬盘安装--系统迁移--设置引导启动项

固态硬盘安装：Lenovo Rescuer 15ISK

nvme固态硬盘安装win10填坑记

【移动固态硬盘安装双系统分享——Win to go 和 Deepin Linux】

移动固态硬盘中安装Ubuntu18.04，并且运行于其他电脑

固态硬盘安装操作系统

台电X3 Plus增加固态硬盘安装ubuntun系统

宏基vn7-591g 固态硬盘安装

[电脑问题]新固态硬盘安装系统以及分区，reboot and select proper boot device的问题处理

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

华为手机怎样恢复Android,华为手机怎么恢复出厂设置华为恢复出厂设置的两种方法...

angularjs学习总结详细教程

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载