admin管理员组

文章数量:1531699

2024年2月15日发(作者:)

常用信息采集工具介绍 V1.0

(仅供内部使用)

XXX有限公司

XXX部 信息安全室

2018-6-13

未经许可不得扩散 第1页, 共10页

修订记录

日期 修订版本

修改描述

XXX

作者

2012-04-12 初稿

2018-6-13

未经许可不得扩散 第2页, 共10页

目 录

说明: ............................................................................................................................. 4

仅供内部使用............................................................................................................ 4

1 常用操作系统扫描工具介绍....................................................................................... 4

1.1

1.2

1.3

2

网站万能信息采集器....................................................................................... 4

火车头采集器 ................................................................................................. 5

无人值守免费自动采集器................................................................................ 7

其它常用工具............................................................................................................ 8

2.1

2.2

新浪点点通阅读器 .......................................................................................... 8

其它工具后续补充。..................................................................................... 10

2018-6-13

未经许可不得扩散 第3页, 共10页

说明:

仅供内部使用

1 常用操作系统扫描工具介绍

1.1 网站万能信息采集器

【功能】

网站万能信息采集器是一款网站抓取、网页抓取软件,它结合了所有网站抓取网页抓取软件的优点,力争做到功能最强大、使用最简单。

【特点】

八大特色功能:

1.数据采集添加全自动

网站抓取的目的主要是添加到您的网站中,网站万能信息采集器软件可以实现信息采集添加全自动完成。其它网站刚刚更新的信息五分钟之内就会自动跑到您的网站中,您说轻松不轻松?

2.多级页面采集整站一次抓取

不管有多少大类和小类,一次设置,就可以同时采集到多级页面的内容。如果一条信息分布在很多不同的页面上,网站万能信息采集器也能自动识别N级页面实现信息采集抓取。软件自带了一个8层网站采集例子

3.任意类型的文件都能下载

如果需要采集图片、Flash、视频等二进制文件,网站万能信息采集器经过简单设置就可以把任意类型的文件保存到本地。

4.自动识别JavaScript特殊网址

不少网站的网页连接是类似javascript:openwin('1234')这样的特殊网址,不是通常的开头的,网站万能信息采集器也能自动识别抓到内容

5.采集过滤重复导出过滤重复

有些时候网址不同,但是内容一样,万能采集器仍然可以根据内容过滤重复。(新版本新加功能)

6.多页新闻自动合并、广告过滤

2018-6-13

未经许可不得扩散 第4页, 共10页

有些一条新闻里面还有下一页,网站万能信息采集器也可以把各个页面都抓取到的。并且抓取到的新闻中的图片和文字同时可以保存下来,并能把广告过滤掉

7.自动破解Cookie和防盗链

很多下载类的网站都做了Cookie验证或者防盗链了,直接输入网址是抓不到内容的,但是网站万能信息采集器能自动破解Cookie验证和防盗链,呵呵,确保您能抓到想要的东西

8.需要登录的网站也照抓

对于需要登录才能看到信息内容的网站,网站万能信息采集器可以实现轻松登录并采集,即使有验证码也可以穿过登录采集到您需要的信息。

【下载地址】

/

目前使用的测试版。

【使用方法】

软件使用操作手册见网址/

1.2 火车头采集器

【功能】

火车采集器(LocoySpider) 是一个供各大主流文章系统,论坛系统等使用的多线程内容采集发布程序。使用火车采集器,你可以瞬间建立一个拥有庞大内容的网站。系统支持远程图片下载,图片批量水印,Flash下载,下载文件地址探测,自制作发表的cms模块参数,自定2018-6-13

未经许可不得扩散 第5页, 共10页

义发表的内容等。

【特点】

1、通用性强

无论新闻、论坛、视频、黄页、图片、下载类网站,只要通过浏览器能看到的结构化的内容,通过指定匹配规则,都能采集到您所需要的内容。

2、稳定、高效

七年磨一剑,软件不断更新进步,采集速度快,性能稳定,占用资源少。

3、扩展性强、适用范围广

自定义web发布,自定义主流的数据库的保存和发布,自定义本地php及.net外部编程接口处理数据,让数据都能为你所用。

【下载地址】

/

【使用方法】

/

2018-6-13

未经许可不得扩散 第6页, 共10页

1.3 无人值守免费自动采集器

【功能】

灵活强大的采集规则不仅仅是采集文章,可采集任何类型信息

【特点】

可选择倒序、顺序、随机采集文章;支持自动列表网址;支持对数据分布在多层页面的网站进行采集;自由设定采集数据项,并可单独过滤整理每个数据项;支持分页内容采集;支持任意格式、类型的文件(包括图片、视频)下载;可突破防盗链文件;支持动态文件网址分析;支持对需登录访问的网页的采集;可设定关键词采集;可设定防止采集的敏感词。

【下载地址】

/softdown/

【使用方法】

待补充。

2018-6-13

未经许可不得扩散 第7页, 共10页

2 其它常用工具

2.1 新浪点点通阅读器

【功能】

新浪点点通阅读器是为新浪点点通量身打造的一款RSS阅读器,是一个信息传递的平台,通过它可以获取、阅读、管理XML信息,它虽然个头小巧但功能强大,由于是新浪官方开发的一款软件,所以其中内置了新浪所有的RSS频道。

【特点】

点点通阅读器是新浪网推出的一款全新的快捷实用的阅读器,我们可以把它看作一个信息传递通道,也可以把它当成一个资讯平台。通过它我们可以获取、阅读和管理XML格式的信息。

【下载地址】

/softview/SoftView_

【使用方法】

1)打开/rss 网易RSS新闻订购中心,选中所需要订购的频道,例如:科技-----》科技新闻头条------》点击XML右键属性------》选择“复制快捷方式”。

2)打开新浪点点通浏览器,选择“新增频道组”,新建“网易”新闻文件夹,在其下面选择“添加频道”,在弹出框中粘贴XML地址。

2018-6-13

未经许可不得扩散 第8页, 共10页

3)下一步,填写频道名称、频道组、更新间隔、保持条目,点击完成。

4)添加完成后,选择“全部更新”,点击频道列表,就可以看到最新新闻,根据需要可以选择阅读全文。

2018-6-13

未经许可不得扩散 第9页, 共10页

5)其它新闻咨询添加重复以上步骤。

2.2 其它工具后续补充。

2018-6-13

未经许可不得扩散 第10页, 共10页

本文标签: 采集网站信息采集器支持