admin管理员组文章数量:1530834
2024年3月15日发(作者:)
查看谷歌地图爬虫协议
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网
络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots
协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
故事的起源是这样的,最初的开发者Martijn Koster发现,他
的网站被爬虫程序(crawler)所淹没。被爬虫抓取这件事是把双刃
剑。良好的爬取可以提高网站的排名,而恶意的爬取可能会导致服务
器压力暴增而导致崩溃。所以为了减轻服务器的压力,他在1994年
开发了初版标准。
如果做过SEO的朋友,其中一项就是设置良好的。
对于想要推广网站的公司来说,对于Google、百度这样的搜索引擎
的爬虫爬取是有益的,这样可以增加网站的排名。基于鉴于网络安全
与隐私的考虑。在淘宝的robots中,则拒接了来自百度蜘蛛的爬取。
其实在很长一段时间内,很多人不知道Robots协议,直到百度
和360从2012年起的一场“屏蔽和反屏蔽”的大战中,把Robots协
议成为了媒体热词。让他在新闻界中跨界成名。
因为Robots协议不是什么技术上的壁垒,他是一种君子协议,
比如双方打架说好不用刀,拳拳肉搏,结果其中一个竟然关键时刻暗
箭伤人。
自从它出现以来,它并没有成为一项官方的标准,所以解读该协
议的方式也不一样,它也没有及时更新以适应的现代使用场合。
直到2019年7月1日,谷歌开源了Robots Exclusion Protocol
(REP),就是我们说的,同时也开源了匹配的C++库。
谷歌现在已经创建了REP文档草案,并已将提案提交给互联网工
程任务组(IETF),该组织负责推广自愿的互联网标准。
版权声明:本文标题:查看谷歌地图爬虫协议 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/dongtai/1710464389a266981.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论