关于搜索引擎的研究综述|电子爱好者

admin管理员组
文章数量:1531657

2024年7月10日发(作者：)

维普资讯

第

６

２　００　

年　

第

６

４

片朗　计算机技术与发展　

Ｖ（）１．１６　Ｎ（）．４　

【Ｘ１ＭＰＵ１、ＦＲ　ＴＦ　【ＩＮ（）１　（Ｘ　Ｙ　ＡＮＤ　ＤＥＶＥＩ门ＰＭＥＮＴ　

／＼ｐｒ　２００６　

关于搜索引擎的研究综述　

沈贺丹　，潘亚楠２，邵良杉　

（Ｉ．辽宁工程技术大学系统工程研究所，辽宁阜新１２３０００；　

２．辽宁石油化工大学，辽宁抚顺ｌ１３００１）　

摘要：由于目前搜索服务被越来越多的用，ＬＩ所认识和青睐，各样的搜索引擎也应运而生。文中阐述Ｔ搜索引擎的工作原　

理，并对搜索引擎按照不同的依据对其进行分类。介绍并比较目前较为有名气同时其发展历史也推进了搜索引擎的发展　

的几个搜索引擎，最后提出目前搜索引擎所存在的问题。　

关键词：Ｓｐｉｄｅｒ；超链分析；元搜索引擎　

中图分类号：ＴＰ３９３．０９２　文献标识码：Ａ　文章编号：１００５—３７５１（２０ｏ６）０４—０１４７－　０３　

Ａ　Ｓｔｕｄｙ　ｆｏｒ　Ｓｅａｒｃｈ　Ｅｎｇｉｎｅ　

ＳＨＥＮ　Ｈｅ—ｄａｎ　，ＰＡＮ　Ｙａ—ｎａｎ２，ＳＨＡＯ　Ｌｉａｎｇ—ｓｈａｎ　

（１．Ｓｙｓｔｅｍ　Ｅｎｇｉｎｅｅｒｉｎｇ　Ｒｅｓｅａｒｃｈ　Ｉｎｓｔｉｔｕｔｅ，Ｌｉａｏｎｉｎｇ　Ｔｅｃｈｎｉｃａｌ　Ｕｎｉｖｅｒｓｉｔｙ，Ｆｕｘｉｎ　１２３０００，Ｃｈｉｎａ；　

２．１．ｉａｏｎｉｎｇ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｐｅｔｒｏｌｅｕｍ　ａｎｄ　Ｃｈｅｍｉｃａｌ　Ｔｅｃｈｎｏｌｏｇｙ，Ｆｕｓｈｕｎ　１　１３００　ｌ，Ｃｈｉｎａ）　

Ａｂｓｔｒａｃｔ：Ｏｗｉｎｇ　ｔｏ　ｓｅａｒｃｈ　ｓｅｒｖｅ　ｈａｓ　ｂｅｅｎ　ｋｎｏｗｎ　ａｎｄ　ｆａｖｏｕｒｅｄ　ｂｙ　ｎｌ｛｝ｒｅ　ａｎｄ　ｍｏｒｅ　Ｉｎｔｅｍｅｔ　ｕｓｅｒｓ．ｍａｎｙ　ｋｉｎｄｓ　ｏｆ　ｅｓａｒｃｈ　ｅｎｇｉｎｅｓ　ｅｍｅｒｇｅ　

ｔｈｅ　ｔｉｍｅ８　ｒｅｑｕｉｒｅ．Ｔｈｉｓ　ｐａｐｅｒ　ｓｅｔｓ　ｆｏｒｔｈ　ｔｈｅ　ｗｏｒｋ　ｐｒｉｎｃｉｐｌｅ　ｏｆ　ｓｅａｒｃｈ　ｅｎｇｉｎｅ，ａｎｄ　ｓｏｒｔｓ　ｉｔ　ｏｎ　ｄｉｆｆｅｒｅｎｔ　ｂａｓｉｓ．Ｔｈｅｎ　ｒｅｃｏｎｗｎｅｎｄ　ｈｏｍｅ　ｓｅａｒｃｈ　

ｅｎｇｉｎｅ　ｃｏｍｐａｎｉｅｓ　ｗｈｉｃｈ　ｗｉｔｈ　ｇｒｅａｔ　ｆａｍｅ　ａｎｄ　ｈａｖｅ　ｐｕｓｈ　ｔｈｅ　ｄｅｖｅｌｏｐｍｅｎｔ　ｈｉｓｔｏｒｙ　ｏｆ　ｓｅａｒｃｈ　ｅｎｇｉｎｅ．Ｉｎ　ｔｈｅ　ｅｎｄ．ｂｒｉｎｇ　ｆｏｒｗａｒｄ　ｈｏｌｌｌｒｅ　ｐｒｏｂ—　

ｌｅｍｓ　ｗｈｉｃｈ　ｅｘｉｓｔ　ｉｎ　ｓｅａｒｃｈ　ｅｎｇｉｎｅ　ａｔ　ｐｒｅｓｅｎｔ．　

Ｋｅｙ　ｗｏｒｄｓ：Ｓｐｉｄｅｒ；ｈｙｐｅｒｌｉｎｋ　ａｎａｌｙｓｉｓ；ａ　ｍｅｔａ　ｓｅａｒｃｈ　ｅｎｇｉｎｅ　ｒｏｕｎｄｕｐ　

Ｏ引　言　

低依次排列。　

目前，关于具体的搜索引擎的介绍及比较的综述比较。　

现在的搜索引擎已普遍使用超链接分析技术，除了分　

多，但是笔者认为从理论层面对搜索引擎进行探讨更有意　

析索引网页本身的文字，还分析索引所有指向该网页的链　

义，因为理论的意义在于它的前瞻性，特别是对搜索引擎　

接的ⅦＲＬ，ＡｎｅｈｏｒＴｅｘｔ，甚至链接周围的文字。所以，有　

这种实践性较强的学科，实时的理论关注会使搜索引擎的　

时候，即使某个网页Ａ中并没有某个词比如“考博”，但如　

应用发展更理性、更科学。　

果有别的网页Ｂ用链接“考博”指向这个网页Ａ，那么用户　

搜索“考博”时也能找到网页Ａ。而且，如果有越多网页　

ｌ搜索引擎的工作原理　

（Ｃ，Ｄ，Ｅ，Ｆ…）用名为“考博”的链接指向这个网页Ａ，或者　

搜索引擎并不真正搜索互联网，它搜索的实际上是预　

给出这个链接的源网页（Ｂ，Ｃ，Ｄ，Ｅ，Ｆ…）越优秀，那么网　

先整理好的网页索引数据库。搜索引擎也不能真正理解　

页Ａ在用户搜索“考博”时也会被认为更相关，排序也会　

网页上的内容，它只能机械地匹配网页上的文字。　

越靠前。　

真正意义上的搜索引擎，通常指的是收集了互联网上　

搜索引擎的原理，可以看做三步：从互联网上抓取网　

几千万到几十亿个网页并对网页中的每一个文字（即关键　

页一建立索引数据库一在索引数据库中搜索排序。　

词）进行索引，建立索引数据库的全文搜索引擎。当用户　

（１）从互联网上抓取网页　利用能够从互联网上自动　

查找某个关键词的时候，所有在页面内容中包含了该关键　

收集网页的Ｓｐｉｄｅｒ系统程序，自动访问互联网，并沿着任　

词的网页都将作为搜索结果被搜出来。在经过复杂的算　

何网页中的所有ＵＲＬ爬到其它网页，重复这过程，并把爬　

法进行排序后，这些结果将按照与搜索关键词的相关度高　

过的所有网页收集回来。　

（２）建立索引数据库：由分析索引系统程序对收集回　

收稿日期：２００５—０７一（）３　

来的网页进行分析，提取相关网页信息（包括网页所在　

基金项目：辽宁省教育厅内然科学基金资助项Ｕ（２００２２１５４）　

ＵＲＬ、编码类型、页面内容包含的所有关键词、关键词位　

作者简介：沈贺卅（１９８０一），女，辽宁抚顺人，硕士研究生，研究办向　

置、生成时间、大小、与其它网页的链接关系等），根据一定　

为Ｗｅｂ内容挖掘；邵良杉，教授，博＝｝：生导师，辽宁：Ｊ二＝程技术大学副　

的相关度算法进行大量复杂计算，得到每一个网页针对页　

校｝∈，研究方　为汁箅机应用技术和管理科学。　

面文字中及超链中每一个关键词的相关度（或重要性），然　

维普资讯

・

ｌ４８・　汁箅饥技术与发展　第ｌ６卷　

后用这些相关信息建立网页索引数据库。　

（３）在索引数据库中搜索排序：当用户输入关键词搜　

索后，由搜索系统程序从网页索引数据库中找到符合该关　

键词的所有相关网页。因为昕有相关网页针对该关键词　

擎系统。第一类是目录系统，它通过有专业知识的网页编　

辑人员对网上的网页进行精选，建立一个索引目录，来给　

用户提供服务。这类系统的优点是提供的网页准确率高，　

但艇盖的范围小，其典型代表是Ｙａｈｏｏ。第二类是搜索引　

的相关度早已算好，所以只需按照现成的相关度数　排　

序，相关度越高，排名越靠前。最后，由页面生成系统将搜　

索结果的链接地址和页面内容摘要等内容组织起来返回　

擎系统，它通过程序自动地从网上搜集和分析网页，建立　

索引，为用户服务，其典型代表是ＡｌｔａＶｉｓｔａ。这类系统的　

优点是涵盖的网页数量巨大，但搜索的准确率相对比较　

给用户。　

２搜索引擎分类　

搜索引擎按照不同的分类方式可分为以下几种类型：　

（１）按照检索方式分为独立型搜索引擎和元型搜索引　

擎。独立型搜索引擎：拥有自己的索引数据库，检索在自　

身数据库进行，并根据数据库的内容提供有关信息或连接　

站点；元搜索引擎（Ａ　Ｍｅｔａ　Ｓｅａｒｃｈ　Ｅｎｇｉｎｅ　Ｒｏｕｎｄｕｐ）：用户　

只需提交一次搜索请求，由元搜索引擎负责转换处理后提　

交给多个预先选定的独立搜索引擎，并将从各独立搜索引　

擎返回的所有查询结果，集中起来处理后再返回给用户　

（注：元搜索引擎概念上好听，但搜索效果始终不理想，所　

以没有哪个元搜索引擎有过强势地位）。　

（２）根据搜索引擎的不同时期的研究重点和服务性　

能。可以将搜索引擎分为三代。第一代搜索引擎出现于　

１９９４年。这类搜索引擎一般都索引少于１００万个网页，　

极少重新搜集网页并去刷新索引。而且其检索速度非常　

慢，一般都要等待１０ｓ甚至更长的时间。在实现技术上也　

基本沿用较为成熟的ＩＲ（Ｉｎｆｏｍｍｔｉｏｎ　Ｒｅｔｒｉｅｖａ１）、网络、数　

据库等技术，相当于利用一些已有技术实现的一个ｗｗｗ　

上的应用。大约在１９９６年出现的第二代搜索引擎系统大　

多采用分布式方案（多个微型计算机协同工作）来提高数　

据规模、响应速度和用户数量，它们一般都保持一个大约　

５０００万网页的索引数据库，每天能够响应１０００万次用户　

检索请求。自１９９８年到现在，出现了一个搜索引擎空前　

繁荣的时期，一般称这一时期的搜索引擎为第三代搜索引　

擎。第三代搜索引擎的发展有如下几个特点：　

＊索引数据库的规模继续增大，一般的商业搜索引　

擎都保持在几千万甚至上亿个网页。　

＊除了一般意义上的搜索以外，开始出现主题搜索　

和地域搜索。很多小型的垂直门户站点开始使用该技术。　

＊由于搜索返回数据量过大，检索结果相关度评价　

成为研究的焦点。相关的研究又可以分为两类：一类是对　

超文本链的分析，在这方面Ｓｔａｎｆｏｒｄ大学的Ｇｏｏｇｌｅ系统和　

ＩＢＭ的Ｃｌｅｖｅｒ系统作出了很大的贡献；另一类是用户信　

息的反馈，ＤｉｒｅｃｔＨｉｔ系统采用的就是这种方法。　

＊开始使用自动分类技术。Ｎｏｒｔｈｅｍｌ２ｉｇｈｔ和Ｉｎｋｔｏ—　

ｒｎｉ的ＤｉｒｅｃｔｏｒｙＥｎｇｉｎｅ都在一定程度上使用了该技术。这　

一

阶段的发展为搜索引擎拓展了生存空间，Ｉ￣Ｈ－，ｔ提高了搜　

索的质量和效率，为以后的发展奠定ｒ坚实的基础。　

（３）按照索引方式的不同可以分为目录系统和搜索引　

低。　

３著名的搜索引擎　

搜索引擎自１９９３年出现发展至今，已取得了长足的　

进步，信息检索工具搜索引擎也是层出不穷，以下是与搜　

索引擎发展历史息息相关的几个搜索引擎：　

（１）Ｆａｓｔ（Ａｌｌ　ｔｈｅ　ｗｅｂ）公司创立于１９９７年，是挪威科　

技大学（　Ｕ）学术研究的副产品。１９９９年５月，它发　

布了自己的搜索引擎Ａｌｌ　Ｔｈｅ　Ｗｅｂ。Ｆａｓｔ创立的目标是做　

世界上最大和最快的搜索引擎，几年来庶几近之。Ｆａｓｔ　

（Ａｌｌ　ｔｈｅ　ｗｅｂ）的网页搜索可利用ＯＤＰ自动分类，支持　

Ｆｌａｓｈ和Ｐｄｆ搜索，支持多语言搜索，还提供耨闻搜索、图　

像搜索、视频、ＭＰ３和兀、Ｐ搜索，拥有极其强大的高级搜　

索功能。　

（２）Ｔｅｏｍａ起源于１９９８年Ｒｕｔｇｅｒｓ大学的一个项目。　

惴ｔｏ　Ｇｅｒａｓｏｕｌｉｓ教授带领华裔Ｔａ０　Ｙａｒｎ教授等人创　

立Ｔｅｏｍａ于新泽西Ｐｉｓｃａｔａｗａｙ，２００１年春初次登场，２００１　

年９月被提问式搜索引擎Ａｓｋ　Ｊｅｅｖｅｓ收购，２００２年４月再　

次发布。Ｔｅｏｍａ的数据库目前仍偏小，但有两个出彩的功　

．

能：支持类似自动分类的Ｒｅｆｉｎｅ；同时提供专业链接目录　

的Ｒｅｓｏｕｒｃｅｓ。　

（３）Ｗｉｓｅｎｕｔ由韩裔Ｙｅｏｇｉｒｌ　Ｙｕｎ创立。２００１年春季　

发布Ｂｅｔａ版，２００１年９月５日发布正式版，２００２年４月被　

分类目录提供商ｌｏｋｓｍａｒｔ收购。Ｗｉｓｅｎｕｔ也有两个出彩　

的功能：包含类似自动分类和相关检索词的ＷｉｓｅＧｕｉｄｅ；预　

览搜索结果的Ｓｎｅａｋ—ａ—Ｐｅｅｋ。　

（４）Ｇｉｇａｂｌａｓｔ由前Ｉｎｆｏｓｅｅｋ工程师Ｍａｔｔ　Ｗｅｌｌｓ创立，　

２００２年３月展示ｐｒｅ—ｂｅｔａ版，２００２年７月２１　Ｅｌ发布Ｂｅｔａ　

版。Ｇｉｇａｂｌａｓｔ的数据库目前仍偏小，但也提供网页快照，　

一

个特色功能是即时索引网页，你的网页刚提交它就能搜　

索（注：这个ｓｐａｎｍｍｒｓ的肉包子功能暂已关闭）。　

（５）Ｏｐｅｎｆｉｎｄ创立于１９９８年１月，其技术源自台湾中　

正大学吴升教授所领导的ＧＡＩＳ实验室。Ｏｐｅｎｆｉｎｄ起先　

只做中文搜索引擎，曾经是最好的中文搜索引擎，鼎盛时　

期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引　

擎，但２０００年后市场逐渐被Ｂａｉｄｕ和Ｇｏｏｇｌｅ瓜分。２００２　

年６月，Ｏｐｅｎｆｉｎｄ重新发布基于ＧＡＩＳ３０　ＰｍＪｅｃｔ的Ｏｐｅｎ—　

ｆｉｎｄ搜索引擎Ｂｅｔａ版，推出多元排序（ＰｏｌｙＲａｎｋＴＭ），宣布　

累计抓取网页３５亿，开始进入英文搜索领域，此后技术升　

级明显加快。　

（６）ｄＬ大天网是国家“九五”重点科技攻关项目“中文　

维普资讯

第４｛；｝ｊ　沈贺丹等：关于搜索引擎的研究综述　・ｌ４９・　

编码和分布式中英文信息发现”的研究成果，由北大计算　

机系网络与分布式系统研究室开发，于１９９７年１０月２９　

日正式在ＣＥＲＮＥＴ上提供服务。２０００年初成立天网搜　

索引擎新课题组，由国家９７３重点基础研究发展规划项目　

基金资助开发，收录刚页约６０００万，利用教育网优势，有　

强大的ＦＴＰ搜索功能。　

（７）２０００年１月，两位北大校友、超链分析专利发明　

人、前Ｉｎｆｏｓｅｅｋ资深工程师李彦宏与好友徐勇（加州伯克　

利分校博士）在北京中关村创立了百度（Ｂａｉｄｕ）公司。　

２００１年８月发布Ｂａｉｄｕ．ｃｏｎｌ搜索引擎Ｂｅｔａ版（此前Ｂａｉｄｕ　

只为其它门户网站搜狐新浪Ｔｏｍ等提供搜索引擎），２００１　

年１０月２２日正式发布Ｂａｉｄｕ搜索引擎，专注于中文搜索。　

Ｂａｉｄｕ搜索引擎的其它特色包括：网页快照、网页预览颀　

览全部网页、相关搜索词、错别字纠正提示、新闻搜索、　

Ｆｌａｓｈ搜索、信息快递搜索。２００２年３月闪电计划（Ｂｌｉｔｚｅｎ　

Ｐｒｏｊｅｃｔ）开始后，技术升级明显加快。　

（８）Ｎｏｒｔｈｅｍｌｉｇｈｔ公司于１９９５年９月成立于马萨诸　

塞州剑桥，１９９７年８月Ｎｏｒｔｈｅｍｌｉｇｈｔ搜索引擎正式现身。　

它曾是拥有最大数据库的搜索引擎之一，它没有Ｓｔｏｐ　

Ｗｏｒｄｓ，它有出色的Ｃｕｒｒｅｎｔ　Ｎｅｗｓ、７　１００多出版物组成的　

Ｓｐｅｃｉａｌ　Ｃｏｌｌｅｃｔｉｏｎ、良好的高级搜索语法，第一个支持对搜　

索结果进行简单的自动分类（注：２００２年１月１６日，　

Ｎｏｒｔｈｅｍｌｉｇｈｔ公共搜索引擎关闭，随后被ｄｉｖｉｎｅ收购，但　

在Ｎｌｒｅｓｅａｒｃｈ，选中“Ⅵｂｒｌｄ　Ｗｉｄｅ　Ｗｅｂ　ｏｎｌｙ”，仍可使用　

Ｎｏｒｔｈｅｍｌｉｇｈｔ搜索引擎）。　

（９）１９９５年９月２６日，加州伯克利分校ＣＳ助教Ｅｒｉｃ　

Ｂｒｅｗｅｒ、博士生Ｐａｕｌ　Ｇａｕｔｈｉｅｒ创立了Ｉｎｋｔｏｍｉ（ＵＣ　Ｂｅｒｋｅｌｅｙ　

Ａｎｎｏｕｎｃｅｓ　Ｉｎｋｔｏｍｉ），１９９６年５月２０日，Ｉｎｋｔｏｎｆｉ公司成　

立，强大的ＨｏｔＢｏｔ出现在世人面前。声称每天能抓取索　

引１千万页以上，所以有远超过其它搜索引擎的新内容。　

ＨｏｔＢｏｔ也大量运用ｃｏｏｋｉｅ储存用户的个人搜索喜好设置　

（注：Ｈｏｔｏｂｔ曾是随后几年最受欢迎的搜索引擎之一，后被　

Ｌｙｃｏｓ收购）。　

（１Ｏ）Ｇｏｏｇｌｅ在１９９８年１０月之前，只是Ｓｔａｎｆｏｒｄ大学　

的一个小项目ＢａｃｋＲｕｂ。１９９５年博士生Ｌａｒｒｙ　Ｐａｇｅ开始　

学习搜索引擎设计，于１９９７年９月１５日注册了ｇｏｏｇｌｅ．　

ｃｏｍ的域名，１９９７年底，在Ｓｅｒｇｅｙ　Ｂｒｉｎ和Ｓｃｏｔｔ　Ｈａｓ￣ａｎ，　

Ａｌａｎ　Ｓｔｅｒｅｍｂｅｒｇ的共同参与下，ＢａｃｈＲｕｂ开始提供Ｉ）ｅｍｏ。　

１９９９年２月，Ｇｏｏｇｌｅ完成了从Ａｌｐｔｍ版到Ｂｅｔａ版的蜕变。　

Ｇｏｏｇｌｅ公司则把１９９８年９月２７日认作自己的生日。　

Ｏｏｏｇｌｅ在Ｐａｇｅｒａｎｋ、动态摘要、网页快照、ＤａｉｌｙＲｅ—　

ｆｒｅｓｈ、多文档格式支持、地图股票词典寻人等集成搜索、多　

语言支持、用户界面等功能上的革新，象Ａｌｔａｖｉｓｔａ一样，再　

一

次永远改变了搜索引擎的定义。　

在２０００年中以前，Ｃ￣ｇｌｅ虽然以搜索准确性备受赞　

誉，但因为数据库不如其它搜索引擎大，缺乏高级搜索语　

法，所以推广并不快。直到２０００年中数据库升级后，又借　

被Ｙａｈｏｏ选作搜索引擎的东风，才一飞冲天。　

４搜索引擎存在的问题　

搜索引擎在飞速发展的同时也存在着很多缺陷，需要　

进一步改进和完善，笔者对这些问题进行了归纳，如下：　

（１）网络信息质量控制欠缺。任何人只要具备相应的　

条件就可以把任何信息送到网上，８００Ｃ这些信息不经任　

何质量控制就被搜索引擎标引，未经质量控制的信息必然　

会影响搜索结果的质量。　

（２）大量占用昂贵的网络带宽和ＣＰＵ资源。由于搜　

索引擎必须将大量资源站点的内容传送至搜索站点本地，　

然后进行分析索引，这样大规模的资源文件的传送和出路　

无疑会增加网络传输的负担，使网络变得更加拥塞，此外　

也大量占用了被搜索站点和搜索站点本身的ＣＰＵ资源，　

致使用户的访问不能得到系统及时的响应。　

（３）覆盖面有限。《科学》杂志最近一份研究报告表　

明，即使功能最完善的搜索引擎，也只能找到　ｂ上大约　

三分之一的网页。　

（４）索引数据库更新困难，提供的信息滞后。搜索引　

擎一般都有庞大的索引数据库，其更新速度总是落后于时　

刻在更新的因特网信息的更新速度。并且索引库越大，其　

更新周期越长，索引失效问题越突出。许多搜索引擎必须　

通过人工方式对信息进行二次处理，这也是造成信息滞后　

的一个重要原因。　

（５）搜索引擎之间各行其事，缺乏合作。目前很多搜　

索引擎都出现对同一个资源站点进行分析、索引的情况。　

这种重复造成很大的资源浪费。　

（６）搜索速度不理想。为了提高效率，人们开始倾向　

于开发较小的专用搜索引擎，通过集中地执行特定任务，　

专用的搜索引擎在其运行领域中会表现出更大的灵活性。　

（７）误检率低，漏检率高。原因有很多：ａ．虽然搜索引　

擎能检索到大量信息，但是与全部因特网信息相比，仅是　

沧海之一粟；ｂ．现在搜索引擎主要是通过Ｒｏｂｏｔ等软件将　

网页全部或部分内容下载到自建索引库中，下载的页面许　

多是无用或暂时信息Ｉｃ．搜索引擎一般不会遗漏较重要的　

网站，但由于对网站的描述较为简单，不能深入网站的内　

部标引。要解决误查和漏检问题，最根本的途径是搜索引　

擎具有认知能力和推理能力。目前人工智能搜索引擎还　

处于研究开发阶段；ｄ．用户检索机制不完善；ｅ．信息分类　

不规范。　

（８）搜索引擎的功能尚待完善。ａ．搜索引擎的发展　

程度参差不齐；ｂ．目前还没有任何一个网络检索工具可在　

检索功能上与传统的计算机化检索工具相媲美，其功能还　

有很大的发展余地。　

（９）检索结果重现性差。现行Ｗｅｂ搜索引擎由于其　

检索技术存在的问题和不足，使得同＿ｌ・检索策略试用不同　

搜索引擎的检索结果各不相同；甚至同一搜索引擎在不同　

时间检索时所得检索结果也完全不相同。需要同时试用　

多个搜索引擎才能得到相对全面的检索结果。　

（下转第１５２页）　

维普资讯

・　

Ｉ５２・　计算饥技术　发展　第１６卷　

｝　

书、Ｉ　务ｂｅａｎ执行之前，日志记录通知乙１瑶Ａｄｖｉｃｅ在ｂｅｆｏｒｅ　

／／ｇ－他的方法实现　

方法内记录借书业务ｂｅａｎ所作的动作，然届借书ｔ￣ｌ１］再　

｝　

完成所要做的动作：　

●跟踪日志Ｂｅｆｏｒｅ通知方面ＬｏｇＡｄｖｉｃｅ代码描述：　

如果（＿ｘ）Ｐ实现借书业务ｂｅａｎ，业务ｂｅａｎ要实现借书　

ｐｕｂｌｉｃ　ｃｌａｓｓ　ＬｏｇＡｄｖｉｃｅ　ｉｍｐｌｅｍｅｎｔｓ　ＭｅｔｈｏｄＢｅｆｏｒｅＡｄｖｉｃｅ｛　

业务功能，还要实现跟踪日志的功能。而采用ＡＯＰ来实　

ｐｕｂｆｉｃ　ｖｏｉｄ　ｂｅｆｏｒｅ（Ｍｅｔｈｏｄ　ｎｌ，Ｏｂｊｅｃｔ［］ａｒｇｓ，Ｏｂｊｅｃｔ　ｔａｒｇｅｔ）　

现，则借书业务ｈｅｍ１只实现借书的本职功能，跟踪日志的　

ｔｈｒｏｗｓ　Ｔｈｒｏｗａｂｌｅ　

｛　

功能交由专门处理日志的方面来完成，这样就使得业务　

ｅｒ　ａｕｄｉｔｏｒ＝Ｉ＿Ｋ）ｇｇｅｒ．ｇｅｔＬ￣ｇｇｅｒ（ｔａｒｇｅｔ．ｇｅｔＣｌａ￣＿ｓ（））；／／　

ｅＢａｎ和跟踪日志功能解藕。　

生成Ｌｏｇ４ｊ实例　

ａｕｄｉｔｏｒ．ｄｅｂｕｇ（“将要执行”＋ｍｅｔｈｏｄ．ｇｅｔＮａｍｅ（））；／　艮踪　

３结束语　

记录业务Ｂｅａｎ的动作　

ＡＯＰ技术简化了Ｊ２ＥＥ应用系统的开发，减少了实现　

ｌ　

横切关注点的重复代码，节约了时间，增加了开发效率，应　

在ｓｐｒｉｎｇｃｏｎｆｉｇ．ｘｎ１ｌ文件中，定义切入点，通过声明方　

用系统变得可测试、容易维护。设计师再也不必陷入设计　

式，把跟踪日志和所要应用的业务Ｂｅａｎ联系起来，具体描　

不足或者过度设计的两难境地。Ｓｐｒｉｎｇ框架提供的ＡＯＰ　

述省略。　

实现推动了ＡＯＰ技术在Ｊ２ＥＥ应用系统中的使用。　

当ＡｃｔｉｏｎＢｅａｎ或应用程序执行ＢｏａｋＭｍｌａｇｅｒ，日志关　

注点和业务Ｂｅａｎ　ＢｏｏｋＭａｎａｇｅｒ被编织起来，当它的公共　

参考文献：　

函数ｓａｖｅｌ３ｍｋ被执行的时候，它们被跟踪并记下日志。　

［１］Ｓｈａｒｗｃ￣ｘｉ　Ｓ．Ａ　ｎｅｗ　ａｓｐｅｃｔ　ｔｏ　ｐｒｏｇｒａｍｍｉｎｇ［ＥＢ／ＯＬ］．ｈｔｔｐ：／／　

业务ｂｅａｎ执行序列图如图２所示。　

ｗ、＾ｎＶ．ｂｕｉｌｄｅｒａｕ．ＣＯＦＩ１．ａｕ／ａｒｃｈｉｔｅｃｔ／０，３９０２４５６４，３９１８３７６３．　

００．｝ｌｔｍ．．２００５—０４—０８．　

［２］Ｊｏｈｎｓｏｎ　Ｒ，Ｈｏｅｌｌｅｒ　Ｊ．Ｅｘｐｅｒｔ　Ｏｎｅ—Ｏｉｌ—Ｏｎｅ　Ｊ２ＥＥ　Ｄｅｖｅｌｏｐ—　

ｍｅｈｔ　ｗｉｔｈｏｕｔ　ＥＪＢ［Ｍ］．Ｉｎｄｉａｎａｐｏｌｉｓ，Ｉｎｄｉａｎａ．－Ｗｉｌｅｙ　Ｐｕｂｌｉｓｈ—　

ｉｎｇ，Ｉｎｅ，２００４．　

［３］Ｏ’Ｒｅｇａｎ　Ｇ，Ｉｎｔｒｏｄｕ＆ｉｏｎ　ｔｏ　Ａｓｐｅｃｔ—Ｏｒｉｅｎｔｅｄ　Ｐｒｏｇｒａｍｍｉｇｎ　

［ＥＢ／ＯＬ］．ｈｔｔｐ：／＾＾ｎ＾ｎ　Ｖ．ｏｎｊａｖａ．ｅｏｍ．／ｐｕｂ／ａ／ｏｎｊａｖａ／２００４／　

０１／１４／ａｏｐ．ｈｔｍｌ，２００４—０１—１４．　

［４］　Ｗａｌｌｓ　Ｃ，Ｂｒｅｉｄｅｎｂａｃｈ　Ｒ．ｓｐｒｉｎｇ　ｉｎ　Ａｃｔｉｏｎ［Ｍ］．Ｇｒｅｅｎｗｉｃｈ。　

对口．上娃议的调川足陋明　

ＣＴ．Ｍａｎｎｉｇｎ　Ｐｕｂｌｉｃａｔｉｏｎｓ　Ｃｏ，２００５．　

［５］　Ｍｉｌｅｓ　Ｒ．Ａｎ　Ｉｎｔｒｏｄｕｃｔｉｏｎ　ｔＯ　Ａｓｐｅｃｔ—Ｏｒｉｅｎｔｅｄ　Ｐｒｏｇｒａｍｍｉｇｎ　

图２应用日志记录通知的借书业务ｂｅａｎ的序列图　

ｗｉｔｈ　ｔｈｅ　Ｓｐｒｉｇｎ　Ｆｒａｍｅｗｏｒｋ，Ｐａｒｔ　１—２［ＥＢ／ＯＬ］，ｈｔｔｐ：／／　

日志记录通知ＬｏｇＡｄｖｉｃｅ作为Ｍｅｔｈｃ￣ＢｅｆｏｒｅＡｄｖｉｃｅ子　

ｖ，、Ⅳ、Ｖ．ｏｎｊａｖａ．ｅｏｍ／ｐｕｂ／ａ／ｏｎｊａｖａ／２００４／０７／１４／ｓｐｆｉｎｇａｏｐ．　

类，它将拦截访问借书业务ｂｅａｎ（目标对象）的方法。在借　

ｈｔｍ１．，２００４—０７一ｌ４．　

（上接第１４９页）　

（１０）缺乏检索专业信息的能力。通常用的搜索引擎，　

索引擎的进一步发展。虽然搜索引擎已经有二十几年的　

一

是不以专业划分检索范围，二是特定专业的检索工具应　

历史了，但不能否认其仍然处于研究开发阶段。因为有很　

该试用与之相应的标引和检索语言，而这是国际互联网检　多问题还需要解决。同时也说明搜索引擎也是一个非常　

索工具难以做到的。因而利用网罗检索工具检索专业的　具有挖掘潜力的的技术。　

网络信息效果不可能太理想。　

（１１）检索过程的重复性。现有的网络信息检索需要　

参考文献：　

用户自行组织检索过程，单个用户的结果不能被其他相同　

［１］雷鸣，王建勇，赵江华，等．第三代搜索引擎与天网二期　

需要的用户共享，这也是一大缺陷。　

［Ｊ］．北京大学学报（自然科学版），２００１，３７（９）：７３５—７４０．　

（１２）搜索引擎的知识产权问题。信息社会中，产权　

［２］胡冉．关于搜索引擎的几个理论问题的综述ｆＪ］．晋图学　

问题无时不在，无处不有。搜索引擎涉及的知识产权问题　

刊，２００３，７４（２）：７４—７７．　

也受到了学界的关注。　

【３］许晋军，苏新宁．信息搜索引擎综述［Ｊ］．计算机系统应用，　

１９９９（４）：２２　２４．　

［４　Ｊ北京大学天网搜索引擎［ＥＢ／ＯＬｊ．ｈｔｔｐ：／／ｅ．ｐｋｕ．ｅｄｕ．ｃｎ，　

５结束语　

２００５—０５—０６．　

随着ｗｗｗ上数据量的不断扩大，信息内容的不断　

［５］朱俊卿．搜索引擎Ｇｏｏｇｌｅ研究［Ｊ］．广州大学学报（综合　

丰富，＆ｆｌ＇ｌ对搜索引擎的要求也不断提高，这也促进Ｉ『搜　

版），２００１，１５（１１）：７一ｌＯ．　

本文标签：搜索引擎搜索网页检索信息

版权声明：本文标题：关于搜索引擎的研究综述内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1720617004a834201.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

关于搜索引擎的研究综述

更多相关文章

ROS中使用Navigation报错信息

不受限制的搜索浏览器，不受限制的搜索浏览器网页

add contact层对比_第四十九篇 -- 添加联系人信息Addcontact

钉钉网页版入口，存档

Yandex：你不可错过的全能搜索引擎

路由器当做网页服务器,路由器为什么不可以做服务器？

《花雕学AI》20：ChatGPT使用之体验评测AI EDU的网页版+桌面端+Android+App store组合

aws预留实例_aws没有告诉您有关储蓄计划和预留实例的信息

kali信息收集

浏览器翻译功能在哪里，如何使用浏览器翻译网页

解决方案：h5网页外部浏览器唤起微信分享，唤起微信面板，分享朋友圈方案，兼容大部分浏览器

亲测有效——win10自带的Edge浏览器打不开网页

使用PC端谷歌Chrome浏览器浏览手机网页 修改PC端谷歌Chrome浏览器UA

Python+selenium 自动化-启用带插件的chrome浏览器，调用浏览器带插件，浏览器加载配置信息。

chrome浏览器怎么模拟手机访问网页（已測OK）

最新版本的Google Chrome浏览器如何设置网页编码？

[网络安全自学篇] 七十五.Vulnhub靶机渗透之bulldog信息收集和nc反弹shell（三）

基于jQuery的网页影音播放器jPlayer的基本使用教程

网页嵌入暴风影音播放插件

电脑各种中英文信息对照及错误信息总汇 系统出错信息及解决方案

发表评论

推荐文章

一芯FC1178BCFC1179主控U盘量产修复指南

解决Win10运行软件程序提示【管理员已阻止你运行此应用】

win10交换Caps和Ctrl

用了 TCP 协议，就一定不会丢包吗？

fedora linux五笔输入法,ArchLinux 安装五笔输入法

热门文章

清除U盘的EFI区

Win10同一路由器下共享打印机

android ftp权限,实战android手机telnet、ftp登陆，权限修改

虚拟机上服务器开机经常黑屏,VMware虚拟机开机黑屏怎么办？虚拟机开机就黑屏的完美解决办法...

iOS越狱知多少？

linux yum 五笔输入法,CentOS 7 安装五笔输入法

win10 内存居高不下，资源管理器看不到运行进程，达到百分之八九十的解决办法

android rmvb格式下载,rmvb移动播放器，rmvb播放器Android版本下载

二级路由dhcp关闭连不上wifi_怎么防止蹭网 防止wifi被蹭教程【详解】

win7、win8旗舰版系统下载、32位、64位

最新文章

The Little Prince

SCI论文写作常用表达整理

Spring官方文档（中文版！！！）

Improvements in Deep Q Learning: Dueling Double DQN, Prioritized Experience Replay, and fixed…

无穷小：历史与应用

windows11的镜像下载

英语易混淆词语：四六级，考研均适用（持续更新中~）

Spring核心接口之Ordered

电子专业 英语词汇大全（持续更新）

关于APK打包所报Messages错误

大学英语六级考试题型分值分配、时间分配、做题策略

EnjoyToShare | 考研英语复试口语

linux kernel调试

irene换脸资源_电线之间：数据可视化科学家艾琳·罗斯（Irene Ros）的访谈

【开源电机驱动】使用电气等效对机械系统建模

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

使用PC端谷歌Chrome浏览器浏览手机网页修改PC端谷歌Chrome浏览器UA

电脑各种中英文信息对照及错误信息总汇系统出错信息及解决方案

二级路由dhcp关闭连不上wifi_怎么防止蹭网防止wifi被蹭教程【详解】

电子专业英语词汇大全（持续更新）

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载