浅谈屏蔽搜索引擎爬虫（蜘蛛）抓取索引收录网页的几种思路|电子爱好者

admin管理员组
文章数量:1560433

在大部分情况下，网站开发完成后，在运营期间，都希望搜索引擎收录网站的内容越多越好，但是有的时候为了安全期间不希望搜索引擎收录网页内容，比如在外网部署的监控系统等；
以下列举了屏蔽主流搜索引擎爬虫（蜘蛛）抓取/索引/收录网页的几种思路。注意：是整站屏蔽，而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫（蜘蛛）。
1、通过 robots.txt 文件屏蔽
可以说 robots.txt 文件是最重要的一种渠道（能和搜索引擎建立直接对话）。我通过分析我自己博客的服务器日志文件，给出以下建议（同时欢迎网友补充）：
User-agent: Baiduspider
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Disallow: /
User-agent: Googlebot-Image
Disallow:/
User-agent: Mediapartners-Google
Disallow: /
User-agent: Adsbot-Google
Disallow: /
User-agent:Feedfetcher-Google
Disallow: /
User-agent: Yahoo! Slurp
Disallow: /
User-agent: Yahoo! Slurp China
Disallow: /
User-agent: Yahoo!-AdCrawler
Disallow: /
User-agent: YoudaoBot
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: Sogou spider
Disallow: /
User-agent: Sogou web spider
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: Tomato Bot
Disallow: /
User-agent: *
Disallow: /
2、通过 meta tag 屏蔽
在所有的网页头部文件添加，添加如下语句：
<meta name="robots" content="noindex, nofollow">
3、通过服务器（如：Linux/nginx ）配置文件设置
直接过滤 spider/robots 的IP 段。
小注：第1招和第2招只对“君子”有效，防止“小人”要用到第3招（“君子”和“小人”分别泛指指遵守与不遵守 robots.txt 协议的 spider/robots），所以网站上线之后要不断跟踪分析日志，筛选出这些 badbot 的ip，然后屏蔽之。
这里有一个badbot ip 数据库：http://www.spam-whackers/bad.bots.htm
4、通过搜索引擎提供的站长工具，删除网页快照
比如，有的时候百度不严格遵守 robots.txt 协议，可以通过百度提供的“网页投诉”入口删除网页快照。百度网页投诉中心：http://tousu.baidu/webmaster/add
如下图是我的一个网页投诉：

大概3天左右的时间过去，这个网页的百度快照也被删除，说明此种方法也能起效，当然这是不得而为之，属于亡羊补牢。
5、补充更新
可以通过检测 HTTP_USER_AGENT 是否为爬虫/蜘蛛访问，然后直接返回403 状态码屏蔽之。比如：由于api 权限与微博信息隐私保护原因，Xweibo 2.0 版本后禁止搜索引擎收录。

本文转自 geekwolf 51CTO博客，原文链接:http://blog.51cto/linuxgeek/998981

本文标签：爬虫几种浅谈屏蔽蜘蛛

版权声明：本文标题：浅谈屏蔽搜索引擎爬虫（蜘蛛）抓取索引收录网页的几种思路内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1727438343a1114703.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

浅谈屏蔽搜索引擎爬虫（蜘蛛）抓取索引收录网页的几种思路

更多相关文章

帝国织梦和各种php网页将局部广告进行屏蔽搜索引擎蜘蛛

蜘蛛池：搜索引擎优化的神秘武器

六大搜索引擎同时推送软件 seo引蜘蛛专用工具软件

wordpress搜索引擎蜘蛛统计插件SEO

网站导航和地图如何调整有利于搜索引擎蜘蛛爬行

搜索引擎（蜘蛛）抓取内容规则

搜索引擎蜘蛛喜欢什么样的网站？

宝塔面板屏蔽垃圾搜索引擎蜘蛛和扫描工具的办法

搜索引擎UA和对应的蜘蛛IP段,百度,搜狗,so,360搜索,神马

chrome插件：User-Agent Switcher for Chrome模拟搜索引擎蜘蛛之访问蜘蛛页

什么是搜索引擎蜘蛛机器人？是如何工作的

什么是蜘蛛池，蜘蛛池新手指南

PHP判断来访是搜索引擎蜘蛛还是普通用户的代码小结

搜索引擎蜘蛛IP地址大全

php判断搜索引擎是否蜘蛛

搜素引擎蜘蛛的基本原理与工作流程详解【史上最全版】

引蜘蛛秒收录平台：快速收录蜘蛛池

如何准确判断请求是搜索引擎爬虫（蜘蛛）发出的请求？

服务器处理蜘蛛抓取网页的过程,让你网站快速被蜘蛛抓取的十三个方法

Python爬虫之scrapy框架360全网图片爬取

发表评论

推荐文章

苹果电脑暂存盘已满怎么清理 Mac系统如何清理磁盘空间 清理MacBook

VMware+CentOS7搭建私有云桌面服务

腾讯企业QQ服务器完全架设指南

如何白嫖腾讯位置服务

【APICloud系列|31】成功上架5个应用商店总结（腾讯应用宝、阿里应用分发平台、华为开发者联盟、小米开放平台、百度开放平台）

热门文章

vivox9android7.1版本,再战一年：vivo X9获得Anroid 7.1固件更新

vivo X9i的Usb调试模式在哪里，开启vivo X9iUsb调试模式的方法

【2021最新版】Redis面试题总结（50道题含答案解析）

多年收集的一些稀有软件4

POJ - 3538 - Domestic Networks

ie下ajax请求不到数据库,解决IE下Ajax请求无效

win10 笔记本 突然连不上手机热点了

第 4 节课作业-XTuner 微调个人小助手认知

Android手机蓝牙连接笔记本电脑蓝牙

发布移动App应用，Android应用市场发布渠道

最新文章

在虚拟机上安装mac系统为什么一直启动

三行代码解决手机深刷成功后仍无限重启

centos 7 进入单用户系统并且更改所有系统文件（systemctl set-default ctrl-alt-del.target，重启无限循环）

Ubuntu14.04系统登录密码正确进不了桌面死循环问题

如何解决关于SQLSERVER数据库安装时要求重启时(无限要求)重启问题？

win10一直在登录界面无限循环

Windows脚本：监控并自动重启某个进程

w ndows7错误恢复,windows7错误恢复进不去循环 从根本上解决问题

无限循环计算机术语,解决电脑无限循环启动

MacBook更新系统空间不足无限重启无法退出更新程序

安装双系统，grub界面循环 无法启动win10

金蝶9.1标准版，Win7无限重启解决方法

笔记本老出现计算机,电脑老是自动重启,教您如何有效解决这个问题

SQL Server 2008重启问题等问题

linux shell 自动重启,自动重启服务的shell脚本代码

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

苹果电脑暂存盘已满怎么清理 Mac系统如何清理磁盘空间清理MacBook

win10　笔记本　突然连不上手机热点了

w ndows7错误恢复,windows7错误恢复进不去循环从根本上解决问题

安装双系统，grub界面循环无法启动win10

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载