admin管理员组

文章数量:1531199

2024年4月6日发(作者:)

Hawk数据清洗工具的优点和不足

优点:

增加动态页面嗅探,超级模式,修复120项问题,Hawk2。0发布! HAWK是一种

数据采集和清洗工具,依据GPL协议开源,能够灵活,有效地采集来自网页,数据库,文

件, 并通过可视化地拖拽, 快速地进行生成,过滤,转换等操作。其功能最适合的领域,

是爬虫和数据清洗。 Hawk的含义为“鹰”,能够高效,准确地捕杀猎物。 HAWK其前

端界面使用WPF开发,支持插件扩展。通过图形化操作,能够快速建立解决方案。

缺点:

1.拖入从爬虫转换后没有任何数据。

2.拖入从爬虫转换后,数据有了,但之前的列消失了。

3.自动嗅探失败。

4.被封锁问题。(原因:被网站识别为非浏览器;频繁访问)

5.内置浏览器,导致过分复杂;无法多线程抓取;大量无用的请求,导致抓取速度变

慢;即使内置浏览器,也不见得能抓取所有动态请求。

6.网页采集器中,填写关键字,却发现无法找到XPath。可能的原因:网页是动态网

页;因此本链接不包含该关键字,建议考虑使用嗅探方案;关键字太长;是文本中包含不

可见字符时经常出现。

7.获得的页面与浏览器上不一样。

8.一个网站要设置好多个页面,配置太繁琐。

本文标签: 关键字数据浏览器网页页面