admin管理员组

文章数量:1530834

2024年3月15日发(作者:)

查看谷歌地图爬虫协议

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网

络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots

协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

故事的起源是这样的,最初的开发者Martijn Koster发现,他

的网站被爬虫程序(crawler)所淹没。被爬虫抓取这件事是把双刃

剑。良好的爬取可以提高网站的排名,而恶意的爬取可能会导致服务

器压力暴增而导致崩溃。所以为了减轻服务器的压力,他在1994年

开发了初版标准。

如果做过SEO的朋友,其中一项就是设置良好的。

对于想要推广网站的公司来说,对于Google、百度这样的搜索引擎

的爬虫爬取是有益的,这样可以增加网站的排名。基于鉴于网络安全

与隐私的考虑。在淘宝的robots中,则拒接了来自百度蜘蛛的爬取。

其实在很长一段时间内,很多人不知道Robots协议,直到百度

和360从2012年起的一场“屏蔽和反屏蔽”的大战中,把Robots协

议成为了媒体热词。让他在新闻界中跨界成名。

因为Robots协议不是什么技术上的壁垒,他是一种君子协议,

比如双方打架说好不用刀,拳拳肉搏,结果其中一个竟然关键时刻暗

箭伤人。

自从它出现以来,它并没有成为一项官方的标准,所以解读该协

议的方式也不一样,它也没有及时更新以适应的现代使用场合。

直到2019年7月1日,谷歌开源了Robots Exclusion Protocol

(REP),就是我们说的,同时也开源了匹配的C++库。

谷歌现在已经创建了REP文档草案,并已将提案提交给互联网工

程任务组(IETF),该组织负责推广自愿的互联网标准。

本文标签: 协议爬虫标准