golang使用selenium逐页爬取url|电子爱好者

admin管理员组
文章数量:1530078

一、centos7安装chrome

[root@localhost ~]# echo '[google-chrome]
name=google-chrome
baseurl=http://dl.google/linux/chrome/rpm/stable/x86_64
enabled=1
gpgcheck=1
gpgkey=https://dl.google/linux/linux_signing_key.pub
'> /etc/yum.repos.d/google-chrome.repo
[root@localhost ~]# yum -y install google-chrome-stable --nogpgcheck

二、查看chrome版本

[root@localhost ~]# google-chrome-stable --no-sandbox

三、下载chromedriver
到该网站 http://npm.taobao/mirrors/chromedriver/下载对应版本并解压到/root下

四、代码

package main

import (
	"context"
	"fmt"
	"log"
	"time"

	"github/tebeka/selenium"
	"github/tebeka/selenium/chrome"
)

const (
	//设置常量 分别设置chromedriver.exe的地址和本地调用端口
	seleniumPath = `/home/chromedriver`
	port         = 9515
)

var (
	chromeCaps = chrome.Capabilities{
		Prefs: map[string]interface{}{ // 禁止加载图片，加快渲染速度
			"profile.managed_default_content_settings.images": 2,
		},
		Path: "",
		Args: []string{
			// "--headless",
			"--start-maximized",
			"--window-size=1920x1080",
			"--no-sandbox",
			"--user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36",
			"--disable-gpu",
			"--disable-impl-side-painting",
			"--disable-gpu-sandbox",
			"--disable-accelerated-2d-canvas",
			"--disable-accelerated-jpeg-decoding",
			"--test-type=ui",
			"--ignore-certificate-errors",
		},
	}
	//设置selenium服务的选项,设置为空。根据需要设置。
	ops     = []selenium.ServiceOption{}
	service *selenium.Service
	//设置浏览器兼容性，设置浏览器名称为chrome
	caps = selenium.Capabilities{"browserName": "chrome"}
)

// Init 初始化一个service后台服务
func InitService() (*selenium.Service, error) {
	//1.开启selenium服务
	return selenium.NewChromeDriverService(seleniumPath, port, ops...)
}

// [+] 遍历index下标, 一页页抓取文章url---------------------------------------------------------------------------------------------
func Spider(parse ParseFactory) (err error) {
	//1.加载自定义浏览器配置
	caps.AddChrome(chromeCaps)
	//2.将浏览器挂载到selenium driver上, 调用浏览器urlPrefix: 测试参考：DefaultURLPrefix = "http://127.0.0.1:4444/wd/hub"
	wd, err := selenium.NewRemote(caps, fmt.Sprintf("http://127.0.0.1:%v/wd/hub", port))
	if err != nil {
		err = fmt.Errorf("unable create browser, err: %v", err)
		return
	}
	defer wd.Close()
	if err = parse.Run(wd); err != nil {
		log.Fatal(1001, err)
	}
	return
}

func schedule(links []string) {
	var worker1 = make(chan bool, 1)
	var worker2 = make(chan bool, 1)
	var worker3 = make(chan bool, 1)
	var worker4 = make(chan bool, 1)
	worker1 <- true
	worker2 <- true
	worker3 <- true
	worker4 <- true
	n := len(links) / 4
	for {
		select {
		case <-worker1:
			go func() {
				Spider(&ReadArticalParser{ArticleLink: links[:n]})
				worker1 <- true
			}()
		case <-worker2:
			go func() {
				Spider(&ReadArticalParser{ArticleLink: links[n : n*2]})
				worker2 <- true
			}()
		case <-worker3:
			go func() {
				Spider(&ReadArticalParser{ArticleLink: links[n*2 : n*3]})
				worker3 <- true
			}()
		case <-worker4:
			go func() {
				Spider(&ReadArticalParser{ArticleLink: links[n*3:]})
				worker4 <- true
			}()
		default:
			time.Sleep(time.Second * 3)
		}
	}
}

func main() {
	service, err := InitService()
	if err != nil {
		log.Fatal(0001, err)
	}
	defer service.Stop()
	// 获取所有文章链接
	linksParser := &LinksBuildParser{BaseURL: "https://blog.csdn/qq_38900565?t=1"}
	if err := Spider(linksParser); err != nil {
		log.Fatal(0002, err)
	}
	schedule(linksParser.ArticleLink)
}

// [+] 工厂方法封装爬虫器 ------------------------------------------------------------------------------------------------------------
type ParseFactory interface {
	Run(selenium.WebDriver) error
}

// [-] LinksBuildParser 链接爬取器
type LinksBuildParser struct {
	BaseURL     string
	ArticleLink []string
}

func (l *LinksBuildParser) Run(wd selenium.WebDriver) (err error) {
	//1.打开根页
	if err = wd.Get(l.BaseURL); err != nil {
		return
	}
	for {
		// 4.抓取当前文章
		l.ParseLink(wd)
		// 5.点击下一页
		e, err := wd.FindElement(selenium.ByCSSSelector, "[class='js-page-next js-page-action ui-pager']")
		if err != nil {
			break
		}
		e.Click()
	}
	return nil
}

// 抓取当前页面链接
// type ParseLink func(selenium.WebDriver)
func (l *LinksBuildParser) ParseLink(wd selenium.WebDriver) {
	eles, err := wd.FindElements(selenium.ByXPATH, `//*[@id="articleMeList-blog"]/div[2]/div[@class='article-item-box csdn-tracking-statistics']`)
	if err != nil {
		log.Println(2001, err)
		return
	}
	for _, ele := range eles {
		readE, err := ele.FindElement(selenium.ByXPATH, "div[@class='info-box d-flex align-content-center']/p/span[@class='read-num']")
		text, err := readE.Text()
		if err != nil {
			log.Println(2002, err)
			continue
		}
		if len([]byte(text)) > 4 {
			log.Println(2003, "阅读过万", text)
			continue
		}
		a, err := ele.FindElement(selenium.ByXPATH, "h4/a")
		if err != nil {
			log.Println(2004, err)
			continue
		}
		if link, err := a.GetAttribute("href"); err == nil {
			l.ArticleLink = append(l.ArticleLink, link)
		}

	}
}

// [-] 文章阅读器
type ReadArticalParser struct {
	ArticleLink []string
}

func (r *ReadArticalParser) Run(wd selenium.WebDriver) (err error) {
	log.Println(3000, wd.SetPageLoadTimeout(time.Second*15))
	for _, link := range r.ArticleLink {
		// ctx, cancel := context.WithTimeout(context.Background(), time.Second*15)
		// go r.Read(ctx, wd, link)
		// time.Sleep(time.Second * 15)
		// cancel()
		if err := wd.Get(link); err != nil {
			log.Println(3001, err)
		}
		time.Sleep(time.Second * 15)
	}
	return nil
}

func (r *ReadArticalParser) Read(ctx context.Context, wd selenium.WebDriver, link string) {
	quit := make(chan bool, 1)
	go func() {
		if err := wd.Get(link); err != nil {
			log.Println(3002, err)
		}
		quit <- true
	}()
	for {
		select {
		case <-ctx.Done():
			return
		case <-quit:
			return
		default:
			time.Sleep(time.Second)
		}
	}
}

本文标签： selenium Golang url 逐页爬取

版权声明：本文标题：golang使用selenium逐页爬取url 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1724844095a993589.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

python 的selenium库自动化操控浏览器最新教程1

4天前

目录序 1 pycharm中的准备 2 浏览器引擎的准备（重要） 3 引用浏览器引擎 4 万事俱备开始操作了 5 补充，查看Xpath的路径的方法序闲来无事想来试一

selenium自动化“ChromeDriver”和浏览器版本不同解决办法

4天前

“seleniummon.exceptions.SessionNotCreatedException: Message: session not created: This version of ChromeDriver only supp

Python爬虫——Selenium安装配置FireFox浏览器

4天前

Selenium安装配置FireFox浏览器前置需求：1. 下载安装FireFox浏览器和Geckodriver1.1 Windows下载1.2 Linux下载2. 使用Selenium调用FireFox浏览器2.1 创建webdrive

Selenium 如何使用webdriver下载文件（chrome浏览器）

4天前

在网上查了很多关于chrome如何修改默认下载地址和下载不弹窗。发现基本上是这样的： optionswebdriver.ChromeOptions()prefs{profile.default_conten

Python爬虫教程:Selenium模拟登录

4天前

1.引入Selenium Selenium（本文基于python3.8）是一个功能强大的自动化测试工具，它可以用于模拟用户在浏览器中的行为，比如点击、

Selenium控制已打开的chrome、IE浏览器

4天前

0 为什么要接管打开的浏览器 1、重复重新登录，过程麻烦 2、拖慢爬虫的运行速度 3、容易让网站检测到账号异常如何解决重复登录的问题 1、使用登录过的cookie，下次运行时设置保存

java+selenium自动化-IE浏览器搭建自动化环境

4天前

在做web的UI层面自动化时，首先需要进行环境的搭建，即浏览器的一些操作，保证在浏览器启动的情况下才可以进行自动化测试。下面介绍如何在IE浏览器上搭建自动化环境 1.创建一个IE驱动 webDriver driver = new I

Selenium——webdriver，谷歌浏览器跳转到IE浏览器的解决办法

4天前

故事背景： 自动化操作难免会遇到页面跳转，弹框等一系列问题。但是不是所有的页面跳转，通过一个switch_to_* 就能够解决的。今天记录一个很坑爹的问题。谷歌浏览器跳转到i

selenium打不开Ie浏览器的解决办法

4天前

Selenium Webdriver启动IE浏览器需要使用到IE浏览器的驱动IEDriverServer.exe文件，所以首先需要下载IExplorerDriver。下载地址：点此处下载注意&

java爬虫（一）用selenium驱动IE和谷歌浏览器模拟点击网页

4天前

我们公司的需求总是那么折磨人，最近要做模拟人一步步点击拼多多商品发起支付然后得到最后一步的链接。那么之前学的selenium就派上用场了，在本篇博客我将带大家学会Java爬虫的第一步&#x

用URL传值的浏览器最大长度限制

1天前

用URL传值的浏览器最大长度限制 1：问题描述：画面上是有一个table，table上表示了有很多文件的。用户可以操作选择表格中一条，或者多条&

selenium实战指南:如何防止被浏览器检测?

1天前

目录一、简介 1、浏览器指纹识别 2、行为分析 3、为什么会被浏览器检测呢？ 二、如何知道自己已经被检测到 1、使用window.navigator.webdriver属性 2、使用在线网站测试工具查看

不同浏览器中 URL 的最大长度是多少？

1天前

问题描述： 不同浏览器中 URL 的最大长度是多少？浏览器之间有区别吗？ 最大 URL 长度是 HTTP 规范的一部分吗？ 解决方案1: Hunt

Selenium+WebDriver 各浏览器驱动下载与版本对应

1天前

一、chromedriver要与chrome版本对应 chromedriver与chrome浏览器版本对应表（记得就会更新）： chromedriver版本支持的Chro

Selenium Webdriver支持哪些浏览器？（转）

1天前

按照官方文档的说法，现阶段有以下的drivers: ChromeDriver InternetExplorerDriver FirefoxDriver OperaDriver HtmlUnitDriver Androi

为什么selenium会出现浏览器自动退出的情况

18小时前

1.selenium是一个好东西，但是我们在验证driver版本是否正确的时候都会输入一些代码来查看版本是否安装成功 from selenium import webdriver # 启动浏览器 driverweb

selenium控制已经打开的chrome浏览器

15小时前

文章目录 1.启动浏览器传统方式快捷方式2.接管chrome1.启动浏览器传统方式在cmd或者pycharm的terminal启动一个chrome，并指定数据存放的路径 chrome.exe --remote-debugging-

selenium如何接管（控制）已打开Chrome浏览器

15小时前

一、目标使用selenium接管已经打开的Chrome浏览器，并以百度网站为例，输出“百度一下”标签元素。注：我的终端是windows系统，适用于

【Selenium专题】WebDriver启动Chrome浏览器（一）

14小时前

selenium操作chrome浏览器需要有ChromeDriver驱动来协助。一、什么是ChromeDriver？ ChromeDriver是Chromium team开发维护的，它是实现WebDriver有线协议的一个单独的服务。Ch

selenium-设置chrome浏览器无界面模式

14小时前

# 导入包from selenium.webdriver.chrome.options import Options# 设置chrome浏览器无界面模式chrome_options.add_argument(--headless)br

电子爱好者 - 最新技术资讯及电子产品介绍！

golang使用selenium逐页爬取url

更多相关文章

python 的selenium库自动化操控浏览器最新教程1

selenium自动化“ChromeDriver”和浏览器版本不同解决办法

Python爬虫——Selenium安装配置FireFox浏览器

Selenium 如何使用webdriver下载文件（chrome浏览器）

Python爬虫教程:Selenium模拟登录

Selenium控制已打开的chrome、IE浏览器

java+selenium自动化-IE浏览器搭建自动化环境

Selenium——webdriver，谷歌浏览器跳转到IE浏览器的解决办法

selenium打不开Ie浏览器的解决办法

java爬虫（一）用selenium驱动IE和谷歌浏览器模拟点击网页

用URL传值的浏览器最大长度限制

selenium实战指南:如何防止被浏览器检测?

不同浏览器中 URL 的最大长度是多少？

Selenium+WebDriver 各浏览器驱动下载与版本对应

Selenium Webdriver支持哪些浏览器？（转）

为什么selenium会出现浏览器自动退出的情况

selenium控制已经打开的chrome浏览器

selenium如何接管（控制）已打开Chrome浏览器

【Selenium专题】WebDriver启动Chrome浏览器（一）

selenium-设置chrome浏览器无界面模式

发表评论

推荐文章

黑猴子的家：宿主机安装 window 7 系统

路由器后面再接一个路由器怎么设置？

路由器WIFI信号有时找不到，挨在边上也找不到的解决办法 - 找不到WIFI信号 - 家里WIFI找不到

同一wifi下电脑与手机无法ping通，简单解决

网页嵌入暴风影音播放插件

热门文章

Python密码本连接wifi

emmx文件用什么软件打开电脑_电脑打开文件是用什么软件

ChatGPT：开启智能对话的未来

ChatGPT的结果是如何生成的

zimbra+mailman邮件系统部署

用户即将一分钟后关闭计算机,Win10开机提示“你的电脑将在一分钟后自动重启”怎么办？...

Linux平台升级chrome浏览器后，再打开会提示：“您的个人资料来自新版 Google Chrome 浏览器，因此无法使用。某些功能可能无法使用。请指定其他个人资料目录，或使用新版本”

JavaSE基础

AMD64的4个架构级别 v1 v2 v3 v4

如何除去暴风影音的左上边广告和下角动态广告

最新文章

IntelliJ IDEA下载安装

idea系列之-2019.3版本新特性及安装一

2021.3.1idea(jdk+tomcat+maven)安装与配置

IPC，一直被人们忽视的“东西”。

2008R2 WDS (五）--实现win7客户端无人值守安装

c#物联网_C# 基础知识系列- 16 开发工具篇

Python环境搭建

PHP环境搭建

Java学习Day_01

Keil MDK最新版 5.25介绍及下载地址

IntelliJ IDEA（2018.2.5版本）安装和破解

nextCloud集成至APP端可行性报告

IDEA使用教程汇总

（附源码）ssm网上零食销售系统 毕业设计 180826

linux下访问windows的共享

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

（附源码）ssm网上零食销售系统毕业设计 180826

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载