admin管理员组

文章数量:1560456

搜索引擎爬取网页内容的工具我们都称之为搜索引擎蜘蛛,如果希望屏蔽蜘蛛抓取某个页面到搜索引擎服务器中,可以通过robots.txt文件来限制蜘蛛抓取。很多朋友希望屏蔽网站后台禁止搜索引擎蜘蛛抓取,又不希望其他用户了解到网站后台地址,这时候能否通过robots.txt文件来限制呢?

首先,我们来分析一下robots.txt文件的作用以及使用方法。搜索引擎蜘蛛来到站点准备抓取网页内容之前,会先访问该网站根目录下的robots.txt文件,如果不存在该文件,则搜索引擎蜘蛛默认这个网站允许其全部抓取。robots.txt是一个简单的纯文本文件(记事本文件),搜索引擎蜘蛛通过robots.txt里的内容来判断该网站是否可以全部抓取或部分抓取。

如果你希望网站所有页面都被搜索引擎蜘蛛抓取而不屏蔽任何页面的话,你可以不上传robots.txt文件或者上传一个空的robots.txt文件。(目前大多数的内容管理系统源程序都会自带一个空的robots.txt文件)

robots.txt文件的标准格式如下:

User-agent: *

Disallow: /secret.html

Disallow: /index.php?

Disallow: /qiyecao/

如果你希望屏蔽某个页面seacert.html不被抓取,只需在robots.txt文件中加入Disallow:

/secret.html这行代码(该网页是相对网站根目录的网址,如果不是在根目录下面,请加上/xxxx/secret.html上级目录文件夹名称)。

如果你希望某个文件夹全部不被抓取,你可以通过Disallow:

/qiyecao/语法实现,但是搜索引擎蜘蛛仍然可以抓取/qiyecao.html这个页面。

注意事项:如果某个页面已经被搜索引擎抓取,你修改robots.txt文件屏蔽的话,可能需要1到2个月的时间才能被搜索引擎删除。不过你想希望加快删除速度的话,可以通过google网站管理员工具进行删除。如果你的网站首页是index.asp,最好也不要禁止抓取index.html或者index.php等页面,防止出现抓取错误。

最后解释一下本文开始提出的问题:屏蔽网站后台禁止搜索引擎蜘蛛抓取,又不希望其他用户了解到网站后台地址,这时候能否通过robots.txt文件来限制。事实上,这是无法通过robots.txt文件来限制的,因为robots.txt是一个放在网站根目录的文本文档,任何人都是可以访问的。屏蔽搜索引擎蜘蛛抓取网站后台同时又不让其他访客知道的的方法是在网站后台登陆首页中添加noindex标签。

本文标签: 蜘蛛屏蔽后台元素搜索引擎