admin管理员组

文章数量:1531657

2024年7月10日发(作者:)

目录

一、搜索引擎分类及其工作原理----------------------------------------------------------------------------------------------------- 1

1.1.分类 ---------------------------------------------------------------------------------------------------------------------------------------- 1

1.2.工作原理 --------------------------------------------------------------------------------------------------------------------------------- 1

1.2.1.搜索引擎(机器人搜索) ---------------------------------------------------------------------------------------------------- 1

1.2.2.目录索引 -------------------------------------------------------------------------------------------------------------------------- 2

二、搜索引擎的历史与发展 ----------------------------------------------------------------------------------------------------------- 2

2.1.起源 -------------------------------------------------------------------------------------------------------------------------------------- 2

2.2.发展-------------------------------------------------------------------------------------------------------------------------------------- 3

2.2.1. --------------------------------------------------------------------------------------------------------- 错误!未定义书签。

2.2.2. --------------------------------------------------------------------------------------------------------- 错误!未定义书签。

2.2.3.元搜索引擎 ---------------------------------------------------------------------------------------------------------------------- 3

2.2.4.智能检索的产生 --------------------------------------------------------------------------------------------------------------- 4

2.2.5.网格技术 ---------------------------------------------------------------------------------------------- 错误!未定义书签。

2.2.6.搜索引擎世界大观 ------------------------------------------------------------------------------------------------------------ 4

2.3.未来展望 ------------------------------------------------------------------------------------------------------------------------------- 5

三、搜索引擎的评价标准 -------------------------------------------------------------------------------------------------------------- 6

3.1.速度 -------------------------------------------------------------------------------------------------------------------------------------- 6

3.2.查全率与查准率 --------------------------------------------------------------------------------------------------------------------- 6

3.3.死链接 ---------------------------------------------------------------------------------------------------------------------------------- 7

四、搜索引擎的常用搜索技巧 -------------------------------------------------------------------------------------------------------- 7

4.1.搜索方法及技巧 ---------------------------------------------------------------------------------------------------------------------- 7

4.1.1.基本方法 -------------------------------------------------------------------------------------------------------------------------- 7

4.1.2.命令搜索 -------------------------------------------------------------------------------------------------------------------------- 7

4.1.3.类型搜索 -------------------------------------------------------------------------------------------------------------------------- 8

4.2.搜索策略 ------------------------------------------------------------------------------------------------------------------------------- 8

4.2.1.搜索之前先思考 ---------------------------------------------------------------------------------------------------------------- 8

4.2.2.学会使用两个关键词搜索 -------------------------------------------------------------------------------------------------- 8

4.2.3.学会使用减号“-” --------------------------------------------------------------------------------------------------------- 8

4.2.4.善于改正错误 ------------------------------------------------------------------------------------------------------------------- 9

4.2.4.1.常见错误1:错别字 ---------------------------------------------------------------------------------------------------- 9

4.2.4.2.常见错误2:关键词太常见 ------------------------------------------------------------------------------------------ 9

4.2.4.3.常见错误3:多义词 --------------------------------------------------------------------------------------------------- 9

4.2.4.4.常见错误4:不会输关键词 ------------------------------------------------------------------------------------------ 9

4.2.4.5.常见错误5:在错误的地方搜索 ---------------------------------------------------------------------------------- 10

五、搜索引擎比较 --------------------------------------------------------------------------------------------------------------------- 10

5.1.搜索结果 ------------------------------------------------------------------------------------------------------------------------------- 10

5.2.评价-------------------------------------------------------------------------------------------------------------------------------------- 11

5.3.分析------------------------------------------------------------------------------------------------------------------------------------- 12

六、心得体会 ---------------------------------------------------------------------------------------------------------------------------- 12

七、参考文献 ---------------------------------------------------------------------------------------------------------------------------- 13

1

一、搜索引擎分类及其工作原理

1.分类

搜索引擎按其工作方式主要可分为两种。

一种是严格意义上的搜索引擎(Search Engine),又称机器人搜索,具代表性的有AltaVista、Google、Excite、

HotBot、Lycos等。它们都是通过在互联网上提取各个网站的信息来建立自己的数据库,并向用户提供查询

服务,因此是真正的搜索引擎。

另一种是目录索引(Search Index/Directory)。实际上它们算不上是搜索引擎,仅仅是按目录分类的网站链

接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索

引中最具代表性的莫过于大名鼎鼎的Yahoo。其他著名的还有Open Directory (DMOZ)、LookSmart、About

等。

此外,还有一种“免费链接列表”,Free For All Links,简称FFA。这类网站一般只简单地滚动排列链接条目,

少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。

由于搜索引擎和目录索引都为用户提供搜索服务,为方便起见,我们通常将其统称为搜索引擎。

2.工作原理

2.1 搜索引擎(机器人搜索)

搜索引擎的自动信息搜集功能分两种。

一种是定期搜索,即每隔一段时间(比如Google是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP

地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)

发现新网站

定期搜索

搜索引擎

搜索引擎

一定IP地址

主动提取加入数据库

主动提交

网站拥有者

搜索引擎

数据库

关联度高低

将有关信息存入数据库

将网页链接返还客户 找到相关网站

2

定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。

当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,

便采用特殊的算法—通常根据网页中关键词的匹配程度,出现的位置/频次等—计算出各网页的信息关联程

度,然后根据关联程度高低,按顺序将这些网页链接返回给用户。

2.2 目录索引

与搜索引擎相比,目录索引有许多不同之处。

首先,搜索引擎属于自动网站检索,而目录索引则完全

依赖手工操作。用户提交网站后,目录索引编辑人员会亲自浏

览你的网站,然后根据一套自定的评判标准及编辑人员的主观

印象,决定是否接纳你的网站。

其次,向搜索引擎提交网站时,只要遵循有关的规则,

一般都能登录成功。而目录索引对网站的要求则高得多,有时

即使登录多次也不一定成功。尤其像Yahoo!这样的超级索引,

登录更是困难。

此外,在登录搜索引擎时,我们一般不用考虑网站的分

类问题,而登录目录索引时则必须将网站放在一个最合适的目

录(Directory)。

最后,搜索引擎中各网站的有关信息都是从用户网页中

自动提取的,所以用户的角度看,我们拥有更多的自主权;而

目录索引则要求必须手工另外填写网站信息,而且还有各种各

样的限制。更有甚者,如果工作人员认为你提交网站的目录、

网站信息不合适,他可以随时对其进行调整,当然事先是不会

和你商量的。

目前,搜索引擎与目录索引有相互融合渗透的趋势。原

来一些纯粹的搜索引擎现在也提供目录索引注册,有些则在搜

索结果中直接列出其他目录索引的网站(如Google就在其搜索结果中列出Open Directory的网站)。而象

Yahoo! 这些老牌目录索引则开始通过与Google的搜索引擎合作扩大搜索范围,只不过在其目录中注册的网

站永远排在Google查询结果之前。

在这方面,国内几家著名的搜索引擎网站做得更进一步。比如搜狐、新浪就有网站搜索和网页搜索之分,

用户可自行选择。选择网站搜索时,它们是目录索引,搜索范围仅限于自身注册的网站;而选择网页搜索时,

它们又成了搜索引擎。

二、搜索引擎的历史与发展

1.起源

所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、

Bill Wheelan)发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,

于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引

3

擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一

个FTP地址可以下载该文件。 由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于

1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher

搜索工具。

2.发展

2.1

世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规

模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。

爬行器(机器人、蜘蛛)

搜索引擎一般三部分组成

索引生成器

查询检索器

Excite 的历史可以上溯到1993年2月,6个斯坦福大学大学生的想法是分析字词关系,以对互联网上

的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目,他们还发布了一个供webmasters在

自己网站上使用的搜索软件版本,后来被叫做Excite for Web Servers。Excite后来曾以概念搜索闻名,2002

年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎 Dogpile。

2.2

1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和David Filo共同创办了Yahoo!。随着访问

量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不

能真正被归为搜索引擎,事实上只是一个可搜索的目录。Yahoo!中收录的网站,因为都附有简介信息,所以

搜索效率明显提高。Yahoo以后陆续有 Altavista、Inktomi、Google提供搜索引擎服务。Yahoo!--几乎成为

20世纪90年代的因特网的代名词。

2.3 元搜索引擎

1995年,一种新的搜索引擎形式出现了——元搜索引擎。用户只需提交一次搜索请求,由元搜索引擎负

责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来

处理后再返回给用户。

第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引

擎概念上非常好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。

4

2.4 智能检索的产生

它利用分词词典、同义词典,同音词典改善检索效果,进一步还可在知识层面(概念层面)上辅助查询,

通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络,给予用户智能知识提示,

最终帮助用户获得最佳的检索效果。

例:

(1)查询“计算机”,与“电脑”相关的信息也能检索出来;

(2)可以进一步缩小查询范围至“微机”、“服务器”或扩大查询至“信息技术”或查询相关的“电子技术”、

“软件”、“计算机应用”等范畴;

(3)还包括歧义信息和检索处理,如“苹果”,究竟是指水果还是电脑品牌,“华人”与“中华人民共和国”

的区分,将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理,高

效、准确地反馈给用户最需要的信息。

2.5 搜索引擎世界大观

1993年Matthew Gray开发了 World Wide Web Wanderer,这是第一个利用HTML网页之间的链接关

系来检测万维网规模的“机器人”程序。开始,它仅仅用来统计互联网上的服务器数量,后来也能够捕获网址

(URL)。

1994年4月,斯坦福大学的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo。

随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入

的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。

1994年初,华盛顿大学的学生Brian Pinkerton开始了他的小项目WebCrawler。1994年4月20日,

WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一个支持搜索文件全部

文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正

文的前100个字。

1994年7月,卡内基·梅隆大学的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,

创建了Lycos。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使

用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。

1994年底,Infoseek正式亮相。其友善的界面,大量的附加功能,使之和Lycos一样成为搜索引擎的重

要代表。

1995年,一种新的搜索引擎形式出现了——元搜索引擎。用户只需提交一次搜索请求,由元搜索引擎负

责转换处理,提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来

处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的

Metacrawler。

1995年12月,DEC的正式发布AltaVista。AltaVista是第一个支持自然语言搜索的搜索引擎,第一个

实现高级搜索语法的搜索引擎(如AND、 OR、 NOT等)。用户可以用AltaVista搜索新闻组的内容并从互

联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、Java applets、ActiveX objects。AltaVista也声

称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。AltaVista最有

趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,AltaVista也作了大量革

新。它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次

以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被其它搜索引擎广泛采用。1997

年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。

1995年9月26日,加州伯克利分校助教Eric Brewer、博士生Paul Gauthier创立了Inktomi,1996年5

月20日,Inktomi公司成立,强大的HotBot出现在世人面前。声称每天能抓取索引一千万页以上,所以有

5

远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。

1997年8月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有Stop

Words,它有出色的Current News、7100多出版物组成的Special Collection、良好的高级搜索语法,第一个支

持对搜索结果进行简单的自动分类。

1998年10月之前,Google只是斯坦福大学的一个小项目BackRub。1995年博士生Larry Page开始学习

搜索引擎设计,于1997年9月15日注册了域名。1999年2月,Google完成了从Alpha版到Beta版的蜕变。

Google以网页级别为基础,判断网页的重要性,使得搜索结果的相关性大大增强。Google公司的奇客文化氛

围、不作恶的理念,为Google赢得了极高的口碑和品牌美誉。2006年4月,Google宣布其中文名称“谷歌”,

这是Google第一个在非英语国家起的名字。

Fast(Alltheweb)公司创立于1997年,是挪威科技大学

(NTNU)学术研究的副产品。1999年5月,发布了自己的搜索引

擎AllTheWeb。Fast创立的目标是做世界上最大和最快的搜索引

擎,几年来庶几近之。Fast(Alltheweb)的网页搜索可利用ODP

自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新

闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大

的高级搜索功能。(2003年2月25日,Fast的互联网搜索部门

被Overture收购)。

1996年8月,sohu公司成立,制作中文网站分类目录,曾

有“出门找地图,上网找搜狐”的美誉。随着互联网网站的急剧增

加,这种人工编辑的分类目录已经不适应。于2004年8月独立

域名的搜索网站“搜狗”,自称“第三代搜索引擎”。

Openfind 创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起

先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市

场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎

Beta版,推出多元排序(PolyRankTM),开始进入英文搜索领域。

2000年1月,两位北大校友, 李彦宏与好友徐勇在北京中关村创立了百度(Baidu)公司。2001年8

月发布百度搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月

22日正式发布Baidu搜索引擎,专注于中文搜索。2002年3月闪电计划(Blitzen Project)开始后,技术升级

明显加快。后推出贴吧、知道、国学、百科、博客等一系列产品,深受网民欢迎。2005年8月5日在纳斯达

克上市,创下了5年以来美国股市上市新股当日涨幅最高纪录。

2003年12月23日,原慧聪搜索正式独立运做,成立了中国搜索。2004年2月,中国搜索发布桌面搜

索引擎网络猪1.0,2006年3月中搜将网络猪更名为IG(Internet Gateway) 。

2005年6月,新浪正式推出自主研发的搜索引擎“爱问”。2007年起,新浪爱问使用google搜索引擎。

2007年7月1日 全面采用网易自主研发的有道搜索技术,并且合并了原来的综合搜索和网页搜索。有

道网页搜索、图片搜索和博客搜索为网易搜索提供服务。其中网页搜索使用了其自主研发的自然语言处理、

分布式存储及计算技术;图片搜索首创根据拍摄相机品牌、型号,甚至季节等高级搜索功能;博客搜索相比

同类产品具有抓取全面、更新及时的优势,提供“文章预览”,“博客档案”等创新功能。

3.未来展望

随着互联网的发展,网上可以搜寻的网页变得愈来愈多,而网页内容的质素亦变得良莠不齐,没有保证。

所以,未来的搜索引擎将会朝着知识型搜索引擎的方向发展,期以为搜寻者提供更准确及适用的资料。目前,

网上的百科全书如雨后春笋般发展起来;另一方面,近年来亦有不少公司尝试在搜寻方面改进,务求更符合

用户的要求。当中诸如Copernic Agent之类的搜寻代理就是其中之一。

搜索引擎为这条高速公路的主干道,四通八达,贯穿整个互联网,而各种网站将因性质不同,分门别类

6

的分布在这条主干道的各个出入口处。同时因为可以保证采集数据的精确性,和数据的性质,所以可以提供

精确的搜索服务,并可以无限扩展各种服务。

简而言之,搜索引擎将来必将是由模糊走向精确。

三、搜索引擎的评价标准

1.速度

在对“一个好的搜索引擎要求是什么”的调查中,我

们发现,网民们对搜索引擎的搜索“速度”要求最高,占参

与调查人数的34.31%;其次是“搜索准确度”,占33.99%;

接下来是“具有较高智能”,占18.3%;“功能强大”占8.5%;

“使用方便”占4.58%;“其它”要求占0.33%。

调查还发现,网民在一个网站搜索资料时长一般不会

超过10分钟。如果10分钟后他们还找不到所需要的资料,

都会放弃继续搜索。具体的调查数据是:时长在5分钟内离

开的占47.06%;5-10分钟离开的占46.08%;10-20分钟离

开的占6.21%;20分钟以上离开的仅有0.65%。

在信息高速发展的时代,不管是优点还是缺点——总之,人们的耐性——尤其是对待电子产品的耐心,

已经越来越低了。在这样的一个前提之下,速度自然是搜索引擎最需要关注的一点。

通过上面的分析,可以发现查询速度是搜索引擎的第一竞争因素。

2.查全率与查准率

如何衡量搜索引擎的性能?我们可以用衡量传统信息检

索系统的性能参数——查全率和查准率,来衡量一个搜索引擎

的性能。

查全率是检索出的相关文档数和文档集中所有的相关文

档数的比率,衡量的是检索系统的查全率;查准率是检索出的

相关文挡数与检索出的文档总数的比率,衡量的是检索系统)

的查准率。对于一个检索系统来讲,查全率和查准率不可能两

全其美:查全率高时,查准率低;查准率高时,查全率低。所

以常常用11种查全率下11种查准率的平均值(即11点平均查

准率)来衡量一个检索系统的查准率。

对于搜索引擎系统来讲,因为对于一个查询总能返回很

多信息,所以查全率一般不成问题;加之,没有一个搜索引擎

系统能够搜集到所有的WEB同页,查全率很难比较,所以衡

量搜索引擎的性能时,查全率很少使用。

搜索引擎系统的其它衡量指标还有响应时间、支持峰值

查询的能力、易用性、返回结果的有效性(是否为死链、过时

7

信息)等等。但是,目前的搜索引擎系统都非常关心查准率,即是否为用户提供了相关度报高的、高质量的

导航信息。

3.死链接

死链接是网站建设中的专业术语,也就是无效链接,就是那些不可达到的链接。

这些情况下出现死链:

动态链接在数据库不再支持的条件下,变成死链接。 某个文件或网页移动了位置,导致指向它的链接

变成死链接。 网页内容更新并换成其他的链接,原来的链接变成死链接。 网站服务器设置错误。也就是说

看似一个正常的网页链接,但点击后不能打开相对应的网页页面。这样的链接多见于长时间没有维护的网站

页面上。

一个网站存在死链接不是什么好事,首先一个网站如果存在大量的死链接,必将大大损伤网站的整体形

象,再者搜索引擎蜘蛛是通过链接来爬行搜索,如果太多链接无法到达,不但收录页面数量会减少,而且你

的网站在搜索引擎中的权重会大大降低。

死链接的危害就是直接影响网站在搜索引擎上的排名。想要重新恢复网站的排名很是需要花一段时间更

是要投入比之前要多的精力。

四、搜索引擎的常用搜索技巧

1.搜索方法及技巧

1.1 基本方法

对于搜索引擎的使用,简单的就是输入你的语言想法。通过提交获得,这中间就要求你懂得搜索引擎的

一个搜索因素。就是搜索关键字或关键词。这个一般不会被大众用户所了解,普通用户只是简单的思考就形

成一种搜索习惯。比较准确一点的话就是关键词组,再比较专业一点的就是关键字。

1.2 命令搜索

另一方面就是搜索引擎的专业使用,主要是搜索引擎命令搜索和搜索引擎的分类搜索。

搜索引擎的命令搜索主要有:查看网站收录情况,使用site:命令;查看网站的外链情况,使用domain:

或者link:命令。使用函数符号搜索,使用加号(+)或者减号(-)号等来匹配内容;其次还有很多函数符号的使

用,如:&,intitle,inurl,tag,“”,(),related,url,image等等。

8

1.3 类型搜索

另一方面就是类型搜索,如:百度文档搜索,百度音乐搜索,谷歌文档,字典搜索,地图,交通搜索等

等。

2.搜索策略

2.1 搜索之前先思考

搜索引擎本事再大,也搜索不到网上没有的内容,而且,有些内

容虽然存在网上,却因为各种原因,而成为漏网之鱼。所以在你使用

搜索引擎搜索之前,应该先花几秒种想一下,我要找的东西网上可能

有吗?如果有,可能在哪里,是什么样子的?网页上会含有哪些关键

字?

有些东西你根本用不着麻烦搜索引擎的,比如要找个公司的电

话,打个114的速度大概比搜索引擎快得多。又有些问题,可能很难

用合适的关键字描述,或者不能直接用搜索引擎搜到,那你可以尝试

找个精通这个问题的朋友,或者寻找这方面的热门论坛来问,这也是

一种搜索方法。有时,你能选择的最好搜索方法是放弃网络,跑一趟

附近的图书馆,图书馆里有网上找不到的成吨的“信息”。 当你确认你

要找的信息适合通过搜索引擎在网上找之后,搜索到满意结果的概率

就大得多了。

各种搜索引擎的特点泾渭分明,如果你没有为每次搜索分别选择正确的搜索工具,你将浪费掉大量的时

间。分析需求,比较不同搜索引擎的强项和弱点,然后为这次搜索选择最适合的搜索工具。

2.2 学会使用两个关键词搜索

如果一个陌生人突然走近你,向你问道:“北京”,你会怎样回答?大多数人会觉得莫名其妙,然后会再

问这个人到底想问“北京”哪方面的事情。同样,如果你在搜索引擎中输入一个关键词“北京”,搜索引擎也不

知道你要找什么,它也可能返回很多莫名其妙的结果。因此你要养成使用多个关键词搜索的习惯,当然,大

多数情况下使用两个关键词搜索已经足够了,关键词与关键词之间以空格隔开。

2.3 学会使用减号“-”

“-”的作用是为了去除无关的搜索结果,提高搜索结果相关性。有的时候,你在搜索结果中见到一些想要

的结果,但也发现很多不相关的搜索结果,这时你可以找出那些不相关结果的特征关键词,把它减掉。

比如,你要找“申花”的企业信息,输入“申花”却找到一大堆申花队踢足球的新闻,在发现这些新闻的共

同特征是“足球”后,输入“申花 -足球”来搜索,就不会再有体育新闻来麻烦你了。

9

2.4 善于改正错误

经常会有这样的事情发生:你似乎已尽了全力来搜索,但是依然没有找到需要的答案。这个时候,请不

要放弃,认真回顾检查你的搜索过程,也许只是因为一个小差错。一个看上去毫无希望的搜索,很有可能在

你检讨完自己的搜索策略后获得成功。

下面描述了初学者搜索时容易犯的5个低级错误和解决方法,正是因为你经常犯这些错误,所以你总是

得到无用的、荒谬的或者完全没有意义的搜索结果。而一旦你认识到这些错误,将很容易把这些小鬼从你的

搜索经历中永远驱逐出去。

2.4.1.常见错误1:错别字

经常发生的一种错误是,你输入的关键词含有错别字。笔者所做的统计表明,常有大量的错误搜索,例

如 “星际争吧”、“以德制国”之类,这样的关键词能搜索到什么有用资料吗?所以每当你觉得某种内容网上应

该有不少、却搜索不到结果时,你应该先查一下是否有错别字。

2.4.2.常见错误2:关键词太常见

搜索引擎对常见词的搜索存在缺陷,因为这些词曝光率太高了,以至于出现在成百万网页中,使得它们

事实上不能被用来帮你找到什么有用的内容。比如,搜索“电话”, 有无数网站提供跟“电话”相关的信息。所

以当搜索结果太多太乱的时候,你应该尝试使用更多的关键词或者减号来搜索,不使用过于通用的词汇来搜

索,设计一个类似“上海 常用电话”这样特殊的搜索关键词,会给你真正有用的结果。

2.4.3.常见错误3:多义词

要小心使用多义词,比如搜索“Java”,你要找的信息究竟是太平洋上的一个岛、一种著名的咖啡、还是

一种计算机语言?搜索引擎是不能理解辨别多义词的。最好的解决办法是,在搜索之前先问自己这个问题,

然后用短语、用多个关键词或者用其他的词语来代替多义词作为搜索关键词。比如用“爪哇 印尼”、“爪哇 咖

啡”、“Java 语言”分别搜索可以满足不同的需求。

2.4.4.常见错误4:不会输关键词

搜索失败的另一个常见原因是类似这样的搜索:“信息早报在济南发行情况”、“铃羊车的各种图案”、“上

海到成都列车时刻表”。

网友错把搜索引擎当成是听话的服务员了,其实搜索引擎是很机械的,当你用关键词搜索的时候,它只

会把含有这个关键词的网页找出来,根本不管网页上的内容是什么。

而问题在于,没有一个网页上会含有 “上海到成都列车时刻表”这样的关键词,所以搜索引擎也找不到

这样的网页。但是真正含有你想找的内容的网页,应该含有的关键词是 “上海”、“成都”、“列车”、“时刻表”,

所以你应该这样搜索:“上海 成都 列车 时刻表”。

不要用心中想的大白话去搜索,当搜索结果太少甚至没有的时候,应该输入更简单的关键词来搜索,猜

测你找的网页中可能含有的关键词,然后用那些关键词搜索。

10

2.4.5.常见错误5:在错误的地方搜索

2001年7月23日这一天,正逢高考发榜,各大搜索引擎竟有超过100万次以上的搜索跟高考查分有关。

考生们不知道,搜索引擎从抓取网页、解析、索引到提供检索是有一个周期的,各搜索引擎的信息滞后周期

从一周到一月不等,所以找最新内容应该去看新闻,用搜索引擎是找不到最新内容,只能找到一个星期或一

个月以前的内容。另外,搜索引擎对动态内容,如:论坛、数据库内容,以及带frame结构的网页检索能力

较弱,所以这类信息也不适合用搜索引擎搜索,而是应该去相关的网站寻找,当然,寻找相关网站的任务搜

索引擎是当仁不让的。

五、搜索引擎比较

1.搜索结果

关键词

百度 雅虎

2011 世界五百强

无具体信息:

美国《财富》杂志发布2011

年度“世界500强”企业最新排

名,沃尔玛连续第二年成为全球

第一,皇家壳牌和埃克森美孚分

居第二和第三。中国入榜企业数

量 (包括内地、香港和台湾地区)

再次刷新,共有69家企业榜上有

名,超过了去年54家的纪录,同

时也超过了日本,仅次于美国的

133家,再创历史新高。其中大

陆地区比上年增加15家,台湾地

区增加了1家。中国去年上榜的

所有公司今年无一下榜。中国石

化、中国石油和国家电网进入前

十,分列第5、第6和第7位。

2011 中国五百强

新浪

结果

2011排名 公司名称

营业收入(百万美元) 利润(百万美元) 国家

1 沃尔玛(Wal-Mart Stores)

421,849 16,389 美国

2荷兰皇家壳牌石油公司(Royal Dutch Shell)

378,152 20,127荷兰

3 埃克森美孚(Exxon Mobil)

354,674 30,460 美国

4 英国石油公司(BP)

308,928 -3,719 英国

5中国石油化工集团公司(Sinopec Group)

273,421.9 7,628.7 中国

无所需信息

关键词

结果

中国石油化工集团有限公司 196904221

中国石油天然气集团有限公司 172088519

国家电网公司 152880849

中国工商银行股份有限公司 54500200

中国移动通信集团公司 51901596

单位 万元

无所需信息 无所需信息

11

关键词 血红素 分子结构

血红素的每个亚基由一条肽链和一个血

红素分子构成,肽链在生理条件下会盘绕折叠

成球形,把血红素分子抱在里面,这条肽链盘

绕成的球形结构又被称为珠蛋白。血红素分子

是一个具有卟啉结构的小分子,在卟啉分子中

心,由卟啉中四个吡咯环上的氮原子与一个亚

铁离子配位结合,珠蛋白肽链中第8位的一个

组氨酸残基中的吲哚侧链上的氮原子从卟啉

分子平面的上方与亚铁离子配位结合,当血红

素不与氧结合的时候,有一个水分子从卟啉环

下方与亚铁离子配位结合,而当血红素载氧的

时候,就由氧分子顶替水的位置。

(第一页第一个)

血红素

跳转至维基百科

血红素

血红素 分子结构

结果 无所需信息

关键词 中国濒危动物数据库

国家一级保护动物

鼷鹿、白唇鹿、坡鹿、梅花鹿、豚鹿

国家二级保护动物

马鹿(包括白臀鹿)、水鹿、驼鹿

驯鹿、麋鹿、泽鹿

国家重点保护动物

中国濒危动物数据库

国家重点保护动物

结果

(均为整

合过结

果)

国家一级保护动物

鼷鹿、白唇鹿、坡鹿、梅花鹿、豚鹿

国家二级保护动物

马鹿(包括白臀鹿)、水鹿、驼鹿

2.评价

评价标准

百度

雅虎

新浪

速度

★★★

★★★

★★★

★★

查全率与查准率

查全率

★★

★★

查准率

★★★

★★

死链接

★★

★★

★★

12

评价标准:我在评价的时候主要依据的是其实用性,因此我并不会开到很后面的页数去查询其是否有死

链接,因为正如我在「速度」中所说的,人们的耐性——尤其是对待电子产品的耐心,已经越来越低了,因

此能开到十页之后的人实在是不多,不多,那么其实这个时候是否有死链接可能也没有太大的影响。但是,

若是在前五页中就已经出现死链接,并且还不只是一次发现,那么就会相对的减其星数。而在考虑其它两项

的时候,我一定程度上将这两项结合考虑了,因为就算是速度再快,查出来之后没有一项实用,那么也没有

什么意义。同样的,太过追求查全率,但是过了一分钟还没有显示页面,很显然也是不符合大众要求的。一

般情况下,只要在搜索过程中速度能控制在半分钟左右,基本都是可以接受的。不是仅有几个关键词但全文

完全与此无关的,也基本都能有较高的评价。

3.分析

百度,恐怕是近来搜索引擎中评价不错的一款,不仅速度颇佳,而且查全率与查准率也能保持在一定水

准之上,死链接在查询过程中也并没有发现。因此百度可以用来查询大部分的信息,只要注意关键词,多数

都是可以得到满意的结果的。

而雅虎作为当年比较经典的一款如今已渐渐没落,虽然速度不错,但是死链接偶尔会出现,尤其不能接

受的是,查全率与查准率颇低,不够实用。同时也发现,雅虎在查询一些非常大众化的信息的时候还是有一

定优点的(比如国家保护动物这一条),但是一旦查询内容有一点点偏,即便是查询类似于「中国濒危珍稀

动物数据库」这样的词,实用率便大大下降,同百度这样的“搜索大头”相比,实在是让人失望。

新浪作为目录索引来说,使用起来较为不便,并且值得一说的是,新浪在最近又由很长一段时间使用的

Google引擎变回了自己的独立引擎,又由于新浪的搜索要先确定范围——如「新闻」「娱乐」「博客」等,且

大部分是在其自己的网站内进行搜索,导致很多信息根本无法查到,就算是「国家保护动物」这样的大众化

信息,往往要在其下属的「爱问」等版块才能查到,且信

息不够权威,费时费力,结果往往还不如普通搜索引擎。

可能在搜索新闻等方面会有一定的优点(因为其搜索的方

面第一条便是新闻)。

六、心得体会

经过之前的学习、实践、分析,我对搜索引擎有了系

统全面的了解,虽然仍仅限于皮毛,但是如同《苏菲的世

界》中所说,我已经“试图沿着兔子的细毛往上爬”,以

便将搜索引擎看个清楚。

而这也的确做到了。

在搜索引擎的分类及其工作原理中,我见识到了“网络蜘蛛”的工作原理,也进一步了解了平常依赖的

百度、Google等搜索引擎;而在搜索引擎的历史与发展中,我看到了无数搜索引擎强大与没落,吞并与被吞

并的过程,虽然难免唏嘘,却也在其中明白了搜索引擎逐渐强大的原因——“成王败寇”;而搜索引擎的评

价标准更让我不再仅限于使用搜索引擎,而是更加清楚的认识它;搜索引擎的常用搜索技巧,也让我在“搜

索引擎比较”中有了实际的应用并深感方便。

还有一点不得不提的是,虽然在查询资料的过程中得知新浪在使用Google的搜索引擎,但是事实却让我

有些疑惑:我发现,新浪使用的应该是自己的引擎——也正是由于这一点,是新浪搜索变得非常不实用。可

能这一点也是值得其它搜索引擎的引以为鉴的:太过拘泥于自己的东西而不面向大众,随时都可能被大众所

抛弃。不可否认的,新浪微博如今非常成功,但是新浪搜索呢?虽然仍然保存了这样一个功能,但是使用率

还能保存吗?实话说,如果不是在作业中需要进行比较,可能我永远都不会用新浪搜索——原因也是显而易

13

见的,在无数优秀搜索引擎并存的今天,如果没有一个超越性的优势——类似于腾讯的广泛受众群,有道搜

索在网易邮箱中「有道词典」的设置,搜狗输入法的深入人心——使得人们知道它们,虽然不够深刻但是起

码已经一定的了解它们,恐怕不会有能够成功的一天。

同时,我认为,目录引擎虽然“能够更加精准的查找信息”,但是随着普通搜索引擎的一天天强大,就

连这一项优势也渐渐被其追平。也许目录引擎今后仍会存在,但是Baidu、Google这样精准、迅速、方便的

搜索引擎,使得人们记住了他们,却也忘记了目录引擎的存在,就连雅虎这样曾经的代表,都已经出台普通

搜索引擎而不再是目录搜索引擎,而新浪,这可能在做着最后的挣扎的搜索引擎,也因为实用性在大部分时

光中被人们抛弃、遗忘,让人不禁问一句:目录引擎,你还能走多远?

搜索引擎是一个日新月异的世界,想要不被抛下,只能使自己变得更加强大。

七、参考文献

序列号

1

作者

未知

标题

搜索引擎的分类

及其工作原理

搜索引擎

出处

搜搜问问

地址

/z/q156381955.

htm

/view/

/view/

m

/view/

m

/%D5%D4%B7%F6

%B7%E7/blog/item/183daa975fea5f655

/s/blog_5cfa0ddc

/chinese/EC-c/

/content/

m

/help/sojiqiao/so04

引用日期

05.09.11.

2

未知 百度百科

05.09.11.

3

4

未知

未知

查全率与查准率

死链接

衡量搜索引擎性

能:查全率Recall

和查准率

Precision.

精确搜索引擎的

未来展望

网民们对搜索引

擎速度要求最高

2009年5月中国

搜索引擎类网站

查询速度排行榜

搜索引擎使用技

世界上营业额最

高的五个公司和

中国营业额最高

的五个公司

百度百科

百度百科

06.09.11.

06.09.11.

5

赵扶风 百度空间

06.09.11.

6

7

洪保岩

未知

新浪博客

中国网

06.09.11.

06.09.11.

8

未知 草根网

2345网站导

左旋肉碱官

方网站

06.09.11

9

未知

07.09.11.

10

未知

/gitd/275/ 08.09.11.

14

11

未知 中国企业前10名

汽车之家 论

/bbs/thread-

08.09.11.

本文标签: 搜索搜索引擎网站用户信息