admin管理员组文章数量:1531199
2024年4月6日发(作者:)
Hawk数据清洗工具的优点和不足
优点:
增加动态页面嗅探,超级模式,修复120项问题,Hawk2。0发布! HAWK是一种
数据采集和清洗工具,依据GPL协议开源,能够灵活,有效地采集来自网页,数据库,文
件, 并通过可视化地拖拽, 快速地进行生成,过滤,转换等操作。其功能最适合的领域,
是爬虫和数据清洗。 Hawk的含义为“鹰”,能够高效,准确地捕杀猎物。 HAWK其前
端界面使用WPF开发,支持插件扩展。通过图形化操作,能够快速建立解决方案。
缺点:
1.拖入从爬虫转换后没有任何数据。
2.拖入从爬虫转换后,数据有了,但之前的列消失了。
3.自动嗅探失败。
4.被封锁问题。(原因:被网站识别为非浏览器;频繁访问)
5.内置浏览器,导致过分复杂;无法多线程抓取;大量无用的请求,导致抓取速度变
慢;即使内置浏览器,也不见得能抓取所有动态请求。
6.网页采集器中,填写关键字,却发现无法找到XPath。可能的原因:网页是动态网
页;因此本链接不包含该关键字,建议考虑使用嗅探方案;关键字太长;是文本中包含不
可见字符时经常出现。
7.获得的页面与浏览器上不一样。
8.一个网站要设置好多个页面,配置太繁琐。
版权声明:本文标题:Hawk数据清洗工具的优点和不足 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/dongtai/1712358127a356383.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论