admin管理员组

文章数量:1533913

使用phantomjs进行网页抓取的实现代码

phantomjs因为是无头浏览器可以跑js,所以同样可以跑dom节点,用来进行网页抓取是再好不过了。

比如我们要批量抓取网页 “历史上的今天” 的内容。网站

对dom结构的观察发现,我们只需要取到 .list li a的title值即可。因此我们利用高级选择器构建dom片段

var d= ''

var c = document.querySelectorAll('.list li a')

var l = c.length;

for(var i =0;i

d=d+c[i].title+'\n'

}

之后只需要让js代码在phantomjs里跑起来即可~

var page = require('webpage').create();

page.open('http://www.todayonhistory/', function (status) { //打开页面

if (status !== 'success') {

console.log('FAIL to load the address');

} else {

console.log(page.evaluate(function () {

var d= ''

var c = document.querySelectorAll('.list li a')

var l = c.length;

for(var i =0;i

d=d+c[i].title+'\n'

}

return d

}))

}

phantom.exit();

});

最终我们另存为catch.js,在dos里面执行一下,输出内容到txt文件(也可以用phantomjs的文件api来写)

相关阅读:

在CentOS系统上安装DNS服务器的教程

mac os x10.10系统如何批量修改文名

oracle中的trim函数使用介绍

js拆分字符串并将分割的数据放到数组中的方法

javascript获取系统当前时间的方法

AngularJS基础 ng-switch 指令简单示例

php jsonp单引号转义

学习JavaScript鼠标响应事件

单击某一段文字改写文本颜色

php实现图片添加水印功能

Linux安装配置MariaDB数据库全程详解

MySQL函数大全及用法示例分享

Win10能运行单片机吗?Win10系统不识别51单片机的教程

如何解决Win7电脑不能正常安装软件的情况?Win7电脑不能正常安装软件的解决方法

本文标签: 无头浏览器代码网页教程