admin管理员组

文章数量:1531657

2024年7月10日发(作者:)

维普资讯

2 00 

年 

片朗 计算机技术与发展 

V()1.16 N().4 

【X1MPU1、FR TF 【IN()1 (X Y AND DEVEI门PMENT 

/\pr 2006 

关于搜索引擎的研究综述 

沈贺丹 ,潘亚楠2,邵良杉 

(I.辽宁工程技术大学系统工程研究所,辽宁阜新123000; 

2.辽宁石油化工大学,辽宁抚顺l13001) 

摘要:由于目前搜索服务被越来越多的用,LI所认识和青睐,各样的搜索引擎也应运而生。文中阐述T搜索引擎的工作原 

理,并对搜索引擎按照不同的依据对其进行分类。介绍并比较目前较为有名气同时其发展历史也推进了搜索引擎的发展 

的几个搜索引擎,最后提出目前搜索引擎所存在的问题。 

关键词:Spider;超链分析;元搜索引擎 

中图分类号:TP393.092 文献标识码:A 文章编号:1005—3751(20o6)04—0147- 03 

A Study for Search Engine 

SHEN He—dan ,PAN Ya—nan2,SHAO Liang—shan 

(1.System Engineering Research Institute,Liaoning Technical University,Fuxin 123000,China; 

2.1.iaoning University of Petroleum and Chemical Technology,Fushun 1 1300 l,China) 

Abstract:Owing to search serve has been known and favoured by nl{}re and more Intemet users.many kinds of esarch engines emerge 

the time8 require.This paper sets forth the work principle of search engine,and sorts it on different basis.Then reconwnend home search 

engine companies which with great fame and have push the development history of search engine.In the end.bring forward holllre prob— 

lems which exist in search engine at present. 

Key words:Spider;hyperlink analysis;a meta search engine roundup 

O引 言 

低依次排列。 

目前,关于具体的搜索引擎的介绍及比较的综述比较。 

现在的搜索引擎已普遍使用超链接分析技术,除了分 

多,但是笔者认为从理论层面对搜索引擎进行探讨更有意 

析索引网页本身的文字,还分析索引所有指向该网页的链 

义,因为理论的意义在于它的前瞻性,特别是对搜索引擎 

接的ⅦRL,AnehorText,甚至链接周围的文字。所以,有 

这种实践性较强的学科,实时的理论关注会使搜索引擎的 

时候,即使某个网页A中并没有某个词比如“考博”,但如 

应用发展更理性、更科学。 

果有别的网页B用链接“考博”指向这个网页A,那么用户 

搜索“考博”时也能找到网页A。而且,如果有越多网页 

l搜索引擎的工作原理 

(C,D,E,F…)用名为“考博”的链接指向这个网页A,或者 

搜索引擎并不真正搜索互联网,它搜索的实际上是预 

给出这个链接的源网页(B,C,D,E,F…)越优秀,那么网 

先整理好的网页索引数据库。搜索引擎也不能真正理解 

页A在用户搜索“考博”时也会被认为更相关,排序也会 

网页上的内容,它只能机械地匹配网页上的文字。 

越靠前。 

真正意义上的搜索引擎,通常指的是收集了互联网上 

搜索引擎的原理,可以看做三步:从互联网上抓取网 

几千万到几十亿个网页并对网页中的每一个文字(即关键 

页一建立索引数据库一在索引数据库中搜索排序。 

词)进行索引,建立索引数据库的全文搜索引擎。当用户 

(1)从互联网上抓取网页 利用能够从互联网上自动 

查找某个关键词的时候,所有在页面内容中包含了该关键 

收集网页的Spider系统程序,自动访问互联网,并沿着任 

词的网页都将作为搜索结果被搜出来。在经过复杂的算 

何网页中的所有URL爬到其它网页,重复这过程,并把爬 

法进行排序后,这些结果将按照与搜索关键词的相关度高 

过的所有网页收集回来。 

(2)建立索引数据库:由分析索引系统程序对收集回 

收稿日期:2005—07一()3 

来的网页进行分析,提取相关网页信息(包括网页所在 

基金项目:辽宁省教育厅内然科学基金资助项U(20022154) 

URL、编码类型、页面内容包含的所有关键词、关键词位 

作者简介:沈贺卅(1980一),女,辽宁抚顺人,硕士研究生,研究办向 

置、生成时间、大小、与其它网页的链接关系等),根据一定 

为Web内容挖掘;邵良杉,教授,博=}:生导师,辽宁:J二=程技术大学副 

的相关度算法进行大量复杂计算,得到每一个网页针对页 

校}∈,研究方 为汁箅机应用技术和管理科学。 

面文字中及超链中每一个关键词的相关度(或重要性),然 

维普资讯

l48・ 汁箅饥技术与发展 第l6卷 

后用这些相关信息建立网页索引数据库。 

(3)在索引数据库中搜索排序:当用户输入关键词搜 

索后,由搜索系统程序从网页索引数据库中找到符合该关 

键词的所有相关网页。因为昕有相关网页针对该关键词 

擎系统。第一类是目录系统,它通过有专业知识的网页编 

辑人员对网上的网页进行精选,建立一个索引目录,来给 

用户提供服务。这类系统的优点是提供的网页准确率高, 

但艇盖的范围小,其典型代表是Yahoo。第二类是搜索引 

的相关度早已算好,所以只需按照现成的相关度数 排 

序,相关度越高,排名越靠前。最后,由页面生成系统将搜 

索结果的链接地址和页面内容摘要等内容组织起来返回 

擎系统,它通过程序自动地从网上搜集和分析网页,建立 

索引,为用户服务,其典型代表是AltaVista。这类系统的 

优点是涵盖的网页数量巨大,但搜索的准确率相对比较 

给用户。 

2搜索引擎分类 

搜索引擎按照不同的分类方式可分为以下几种类型: 

(1)按照检索方式分为独立型搜索引擎和元型搜索引 

擎。独立型搜索引擎:拥有自己的索引数据库,检索在自 

身数据库进行,并根据数据库的内容提供有关信息或连接 

站点;元搜索引擎(A Meta Search Engine Roundup):用户 

只需提交一次搜索请求,由元搜索引擎负责转换处理后提 

交给多个预先选定的独立搜索引擎,并将从各独立搜索引 

擎返回的所有查询结果,集中起来处理后再返回给用户 

(注:元搜索引擎概念上好听,但搜索效果始终不理想,所 

以没有哪个元搜索引擎有过强势地位)。 

(2)根据搜索引擎的不同时期的研究重点和服务性 

能。可以将搜索引擎分为三代。第一代搜索引擎出现于 

1994年。这类搜索引擎一般都索引少于100万个网页, 

极少重新搜集网页并去刷新索引。而且其检索速度非常 

慢,一般都要等待10s甚至更长的时间。在实现技术上也 

基本沿用较为成熟的IR(Infommtion Retrieva1)、网络、数 

据库等技术,相当于利用一些已有技术实现的一个www 

上的应用。大约在1996年出现的第二代搜索引擎系统大 

多采用分布式方案(多个微型计算机协同工作)来提高数 

据规模、响应速度和用户数量,它们一般都保持一个大约 

5000万网页的索引数据库,每天能够响应1000万次用户 

检索请求。自1998年到现在,出现了一个搜索引擎空前 

繁荣的时期,一般称这一时期的搜索引擎为第三代搜索引 

擎。第三代搜索引擎的发展有如下几个特点: 

*索引数据库的规模继续增大,一般的商业搜索引 

擎都保持在几千万甚至上亿个网页。 

*除了一般意义上的搜索以外,开始出现主题搜索 

和地域搜索。很多小型的垂直门户站点开始使用该技术。 

*由于搜索返回数据量过大,检索结果相关度评价 

成为研究的焦点。相关的研究又可以分为两类:一类是对 

超文本链的分析,在这方面Stanford大学的Google系统和 

IBM的Clever系统作出了很大的贡献;另一类是用户信 

息的反馈,DirectHit系统采用的就是这种方法。 

*开始使用自动分类技术。Northeml2ight和Inkto— 

rni的DirectoryEngine都在一定程度上使用了该技术。这 

阶段的发展为搜索引擎拓展了生存空间,I ̄H-,t提高了搜 

索的质量和效率,为以后的发展奠定r坚实的基础。 

(3)按照索引方式的不同可以分为目录系统和搜索引 

低。 

3著名的搜索引擎 

搜索引擎自1993年出现发展至今,已取得了长足的 

进步,信息检索工具搜索引擎也是层出不穷,以下是与搜 

索引擎发展历史息息相关的几个搜索引擎: 

(1)Fast(All the web)公司创立于1997年,是挪威科 

技大学( U)学术研究的副产品。1999年5月,它发 

布了自己的搜索引擎All The Web。Fast创立的目标是做 

世界上最大和最快的搜索引擎,几年来庶几近之。Fast 

(All the web)的网页搜索可利用ODP自动分类,支持 

Flash和Pdf搜索,支持多语言搜索,还提供耨闻搜索、图 

像搜索、视频、MP3和兀、P搜索,拥有极其强大的高级搜 

索功能。 

(2)Teoma起源于1998年Rutgers大学的一个项目。 

惴to Gerasoulis教授带领华裔Ta0 Yarn教授等人创 

立Teoma于新泽西Piscataway,2001年春初次登场,2001 

年9月被提问式搜索引擎Ask Jeeves收购,2002年4月再 

次发布。Teoma的数据库目前仍偏小,但有两个出彩的功 

能:支持类似自动分类的Refine;同时提供专业链接目录 

的Resources。 

(3)Wisenut由韩裔Yeogirl Yun创立。2001年春季 

发布Beta版,2001年9月5日发布正式版,2002年4月被 

分类目录提供商loksmart收购。Wisenut也有两个出彩 

的功能:包含类似自动分类和相关检索词的WiseGuide;预 

览搜索结果的Sneak—a—Peek。 

(4)Gigablast由前Infoseek工程师Matt Wells创立, 

2002年3月展示pre—beta版,2002年7月21 El发布Beta 

版。Gigablast的数据库目前仍偏小,但也提供网页快照, 

个特色功能是即时索引网页,你的网页刚提交它就能搜 

索(注:这个spanmmrs的肉包子功能暂已关闭)。 

(5)Openfind创立于1998年1月,其技术源自台湾中 

正大学吴升教授所领导的GAIS实验室。Openfind起先 

只做中文搜索引擎,曾经是最好的中文搜索引擎,鼎盛时 

期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引 

擎,但2000年后市场逐渐被Baidu和Google瓜分。2002 

年6月,Openfind重新发布基于GAIS30 PmJect的Open— 

find搜索引擎Beta版,推出多元排序(PolyRankTM),宣布 

累计抓取网页35亿,开始进入英文搜索领域,此后技术升 

级明显加快。 

(6)dL大天网是国家“九五”重点科技攻关项目“中文 

维普资讯

第4{;}j 沈贺丹等:关于搜索引擎的研究综述 ・l49・ 

编码和分布式中英文信息发现”的研究成果,由北大计算 

机系网络与分布式系统研究室开发,于1997年10月29 

日正式在CERNET上提供服务。2000年初成立天网搜 

索引擎新课题组,由国家973重点基础研究发展规划项目 

基金资助开发,收录刚页约6000万,利用教育网优势,有 

强大的FTP搜索功能。 

(7)2000年1月,两位北大校友、超链分析专利发明 

人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克 

利分校博士)在北京中关村创立了百度(Baidu)公司。 

2001年8月发布Baidu.conl搜索引擎Beta版(此前Baidu 

只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001 

年10月22日正式发布Baidu搜索引擎,专注于中文搜索。 

Baidu搜索引擎的其它特色包括:网页快照、网页预览颀 

览全部网页、相关搜索词、错别字纠正提示、新闻搜索、 

Flash搜索、信息快递搜索。2002年3月闪电计划(Blitzen 

Project)开始后,技术升级明显加快。 

(8)Northemlight公司于1995年9月成立于马萨诸 

塞州剑桥,1997年8月Northemlight搜索引擎正式现身。 

它曾是拥有最大数据库的搜索引擎之一,它没有Stop 

Words,它有出色的Current News、7 100多出版物组成的 

Special Collection、良好的高级搜索语法,第一个支持对搜 

索结果进行简单的自动分类(注:2002年1月16日, 

Northemlight公共搜索引擎关闭,随后被divine收购,但 

在Nlresearch,选中“Ⅵbrld Wide Web only”,仍可使用 

Northemlight搜索引擎)。 

(9)1995年9月26日,加州伯克利分校CS助教Eric 

Brewer、博士生Paul Gauthier创立了Inktomi(UC Berkeley 

Announces Inktomi),1996年5月20日,Inktonfi公司成 

立,强大的HotBot出现在世人面前。声称每天能抓取索 

引1千万页以上,所以有远超过其它搜索引擎的新内容。 

HotBot也大量运用cookie储存用户的个人搜索喜好设置 

(注:Hotobt曾是随后几年最受欢迎的搜索引擎之一,后被 

Lycos收购)。 

(1O)Google在1998年10月之前,只是Stanford大学 

的一个小项目BackRub。1995年博士生Larry Page开始 

学习搜索引擎设计,于1997年9月15日注册了google. 

com的域名,1997年底,在Sergey Brin和Scott Has ̄an, 

Alan Steremberg的共同参与下,BachRub开始提供I)emo。 

1999年2月,Google完成了从Alptm版到Beta版的蜕变。 

Google公司则把1998年9月27日认作自己的生日。 

Ooogle在Pagerank、动态摘要、网页快照、DailyRe— 

fresh、多文档格式支持、地图股票词典寻人等集成搜索、多 

语言支持、用户界面等功能上的革新,象Altavista一样,再 

次永远改变了搜索引擎的定义。 

在2000年中以前,C ̄gle虽然以搜索准确性备受赞 

誉,但因为数据库不如其它搜索引擎大,缺乏高级搜索语 

法,所以推广并不快。直到2000年中数据库升级后,又借 

被Yahoo选作搜索引擎的东风,才一飞冲天。 

4搜索引擎存在的问题 

搜索引擎在飞速发展的同时也存在着很多缺陷,需要 

进一步改进和完善,笔者对这些问题进行了归纳,如下: 

(1)网络信息质量控制欠缺。任何人只要具备相应的 

条件就可以把任何信息送到网上,800C这些信息不经任 

何质量控制就被搜索引擎标引,未经质量控制的信息必然 

会影响搜索结果的质量。 

(2)大量占用昂贵的网络带宽和CPU资源。由于搜 

索引擎必须将大量资源站点的内容传送至搜索站点本地, 

然后进行分析索引,这样大规模的资源文件的传送和出路 

无疑会增加网络传输的负担,使网络变得更加拥塞,此外 

也大量占用了被搜索站点和搜索站点本身的CPU资源, 

致使用户的访问不能得到系统及时的响应。 

(3)覆盖面有限。《科学》杂志最近一份研究报告表 

明,即使功能最完善的搜索引擎,也只能找到 b上大约 

三分之一的网页。 

(4)索引数据库更新困难,提供的信息滞后。搜索引 

擎一般都有庞大的索引数据库,其更新速度总是落后于时 

刻在更新的因特网信息的更新速度。并且索引库越大,其 

更新周期越长,索引失效问题越突出。许多搜索引擎必须 

通过人工方式对信息进行二次处理,这也是造成信息滞后 

的一个重要原因。 

(5)搜索引擎之间各行其事,缺乏合作。目前很多搜 

索引擎都出现对同一个资源站点进行分析、索引的情况。 

这种重复造成很大的资源浪费。 

(6)搜索速度不理想。为了提高效率,人们开始倾向 

于开发较小的专用搜索引擎,通过集中地执行特定任务, 

专用的搜索引擎在其运行领域中会表现出更大的灵活性。 

(7)误检率低,漏检率高。原因有很多:a.虽然搜索引 

擎能检索到大量信息,但是与全部因特网信息相比,仅是 

沧海之一粟;b.现在搜索引擎主要是通过Robot等软件将 

网页全部或部分内容下载到自建索引库中,下载的页面许 

多是无用或暂时信息Ic.搜索引擎一般不会遗漏较重要的 

网站,但由于对网站的描述较为简单,不能深入网站的内 

部标引。要解决误查和漏检问题,最根本的途径是搜索引 

擎具有认知能力和推理能力。目前人工智能搜索引擎还 

处于研究开发阶段;d.用户检索机制不完善;e.信息分类 

不规范。 

(8)搜索引擎的功能尚待完善。a.搜索引擎的发展 

程度参差不齐;b.目前还没有任何一个网络检索工具可在 

检索功能上与传统的计算机化检索工具相媲美,其功能还 

有很大的发展余地。 

(9)检索结果重现性差。现行Web搜索引擎由于其 

检索技术存在的问题和不足,使得同_l・检索策略试用不同 

搜索引擎的检索结果各不相同;甚至同一搜索引擎在不同 

时间检索时所得检索结果也完全不相同。需要同时试用 

多个搜索引擎才能得到相对全面的检索结果。 

(下转第152页) 

维普资讯

・ 

I52・ 计算饥技术 发展 第16卷 

} 

书、I 务bean执行之前,日志记录通知乙1瑶Advice在before 

//g-他的方法实现 

方法内记录借书业务bean所作的动作,然届借书t ̄l1]再 

} 

完成所要做的动作: 

●跟踪日志Before通知方面LogAdvice代码描述: 

如果(_x)P实现借书业务bean,业务bean要实现借书 

public class LogAdvice implements MethodBeforeAdvice{ 

业务功能,还要实现跟踪日志的功能。而采用AOP来实 

pubfic void before(Method nl,Object[]args,Object target) 

现,则借书业务hem1只实现借书的本职功能,跟踪日志的 

throws Throwable 

{ 

功能交由专门处理日志的方面来完成,这样就使得业务 

er auditor=I_K)gger.getL ̄gger(target.getCla ̄_s());// 

eBan和跟踪日志功能解藕。 

生成Log4j实例 

auditor.debug(“将要执行”+method.getName());/ 艮踪 

3结束语 

记录业务Bean的动作 

AOP技术简化了J2EE应用系统的开发,减少了实现 

l 

横切关注点的重复代码,节约了时间,增加了开发效率,应 

在springconfig.xn1l文件中,定义切入点,通过声明方 

用系统变得可测试、容易维护。设计师再也不必陷入设计 

式,把跟踪日志和所要应用的业务Bean联系起来,具体描 

不足或者过度设计的两难境地。Spring框架提供的AOP 

述省略。 

实现推动了AOP技术在J2EE应用系统中的使用。 

当ActionBean或应用程序执行BoakMmlager,日志关 

注点和业务Bean BookManager被编织起来,当它的公共 

参考文献: 

函数savel3mk被执行的时候,它们被跟踪并记下日志。 

[1]Sharwc ̄xi S.A new aspect to programming[EB/OL].http:// 

业务bean执行序列图如图2所示。 

w、^nV.builderau.COFI1.au/architect/0,39024564,39183763. 

00.}ltm..2005—04—08. 

[2]Johnson R,Hoeller J.Expert One—Oil—One J2EE Develop— 

meht without EJB[M].Indianapolis,Indiana.-Wiley Publish— 

ing,Ine,2004. 

[3]O’Regan G,Introdu&ion to Aspect—Oriented Programmign 

[EB/OL].http:/^^n^n V.onjava.eom./pub/a/onjava/2004/ 

01/14/aop.html,2004—01—14. 

[4] Walls C,Breidenbach R.spring in Action[M].Greenwich。 

对口.上娃议的调川足陋明 

CT.Mannign Publications Co,2005. 

[5] Miles R.An Introduction tO Aspect—Oriented Programmign 

图2应用日志记录通知的借书业务bean的序列图 

with the Sprign Framework,Part 1—2[EB/OL],http:// 

日志记录通知LogAdvice作为Methc ̄BeforeAdvice子 

v,、Ⅳ、V.onjava.eom/pub/a/onjava/2004/07/14/spfingaop. 

类,它将拦截访问借书业务bean(目标对象)的方法。在借 

htm1.,2004—07一l4. 

(上接第149页) 

(10)缺乏检索专业信息的能力。通常用的搜索引擎, 

索引擎的进一步发展。虽然搜索引擎已经有二十几年的 

是不以专业划分检索范围,二是特定专业的检索工具应 

历史了,但不能否认其仍然处于研究开发阶段。因为有很 

该试用与之相应的标引和检索语言,而这是国际互联网检 多问题还需要解决。同时也说明搜索引擎也是一个非常 

索工具难以做到的。因而利用网罗检索工具检索专业的 具有挖掘潜力的的技术。 

网络信息效果不可能太理想。 

(11)检索过程的重复性。现有的网络信息检索需要 

参考文献: 

用户自行组织检索过程,单个用户的结果不能被其他相同 

[1]雷鸣,王建勇,赵江华,等.第三代搜索引擎与天网二期 

需要的用户共享,这也是一大缺陷。 

[J].北京大学学报(自然科学版),2001,37(9):735—740. 

(12)搜索引擎的知识产权问题。信息社会中,产权 

[2]胡冉.关于搜索引擎的几个理论问题的综述fJ].晋图学 

问题无时不在,无处不有。搜索引擎涉及的知识产权问题 

刊,2003,74(2):74—77. 

也受到了学界的关注。 

【3]许晋军,苏新宁.信息搜索引擎综述[J].计算机系统应用, 

1999(4):22 24. 

[4 J北京大学天网搜索引擎[EB/OLj.http://e.pku.edu.cn, 

5结束语 

2005—05—06. 

随着www上数据量的不断扩大,信息内容的不断 

[5]朱俊卿.搜索引擎Google研究[J].广州大学学报(综合 

丰富,&fl'l对搜索引擎的要求也不断提高,这也促进I『搜 

版),2001,15(11):7一lO. 

本文标签: 搜索引擎搜索网页检索信息