admin管理员组

文章数量:1531662

2024年7月10日发(作者:)

这周看了李晓明的那本书,也就是你发给我的那本电子稿的。后来我在图书

馆也借到了。只是书本有点破不敢看,后来直接看你发给我的电子稿。我原本开

始看过的那基本的比较简单的有关搜索引擎或是信息检索的书籍上面都有好多

章节基本上都是引用这本书的,由此可见这本书还是很好的,从我自己看书的情

况来讲,我感觉这本书难度上面还可以,作为入门的书籍蛮好的。本书系统地介

绍了搜索引擎的基本工作原理、实现技术及其系统构建方案。里面涉及到的算法

还是比较多的,不仅仅是理论部分的阐述,更多的是原理部分的介绍,和一般的

书籍不太一样,就我看过的几本书来看,这本书很经典。全书分三篇共13章,

从一开始的基本工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,

进而详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;最后面向

主题和个性化的Web信息服务,阐述了中文网页自动分类等技术及其应用。感

觉里面的层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,对

于现在的我来说具有学习和实用双重意义。

现在网上的信息量在爆炸性增长,目前我们从网上获得信息的主要工具是浏

览器,而通过浏览器得到信息通常有三种方式。第一,直接向浏览器输入一个关

心的网址(URL),浏览器返回所请求的网页,根据该网页内容及其包含的超链

文字(anchor text)的引导,获得自己需要的内容;第二,登录到某个网站,根

据该网站提供的分类目录和相关链接,逐步浏览,寻找自己感兴趣的东西;第三,

登录到某个搜索引擎网站,输入代表自己所关心信息的关键词或者短语,依据返

回的相关信息列表、摘要和超链接引导,试探寻找自己需要的内容。这三种方式

各有特点,各有自己最适合的应用场合。没有什么好与不好的说法。第一种方式

的应用是最有针对性的,第二种方式的应用类似于读报,用户不一定有明确的目

的,只是想看看网上有什么有意思的消息;当然这其中也可能是关心某种主题。

第三种方式适用于用户大致上知道自己要关心的内容。在这种场合,搜索引擎能

够为用户提供一个相关内容的网址及其摘要的列表,由用户一个个试探看是否为

自己需要的。以上的三种方法也是我们日常生活中采用的主要方法。下面简单的

讲述或是总结一下自己的所看所获。

从这本书中了解到我们目前的搜索引擎技术已经能做到在多数情况下满足

用户的这种需要。CNNIC的信息统计指出,目前搜索引擎已经成为继电子邮件

之后人们用得最多的网上信息服务系统。同时,随着网上信息资源规模的增长,

尤其是其内容总体和我们社会的演化发生着越来越密切的联系,研究网上存在的

海量信息逐渐成为许多学科关注的一个方向。为此,不少研究人员也有采样搜集

特定内容、一定数量网页的需要。这本书上讲的是以设计、实现并维护运行北大

“天网”搜索引擎的经验,介绍大规模搜索引擎的工作原理和实现技术。为此我

也渐渐搞懂为什么向搜索引擎输入一个关键词或者短语,就能够在秒钟内得到那

么多相关的文档及其摘要,而点击其中的链接就能够被引导到文档的全文,且其

中相当一部分可能正是我们所需要的。这本书是按照上、中、下三篇展开相关的

内容。上篇主要讲搜索引擎的基本工作原理,要解决的是为什么搜索引擎能提供

如此信息查找服务的问题,以及它在功能上有什么本质的局限性。这一篇的内容

包括网页的搜集过程,网页信息的提取、组织方式和索引结构,查询提交和响应

的过程以及结果产生等。这里面涉及到的许多知识点我在其他书中也是见过的,

但是也有许多好像没见过或是以前老师讲述的没有那么深入。这其中,有我们熟

悉的URL,HTML,HTTP,CGI,MIME等基本概念,在上下文中也给予了必

要的介绍。我们也在其中学到了很多以前不太懂或是只是懂一部分的东西。

中篇讨论和大规模实用搜索引擎有关的技术问题。所谓大规模在这里指至少

维护超过1千万的网页信息,提供相关的查询服务。所涉及的内容包括并行分布

处理技术的应用,数据局部性的开发,缓存技术的应用,以及搜集的网页在提供

服务之前的预处理问题和高效倒排文件的建立技术等等。这一部分的讨论有比较

强的计算机系统结构的风格,其中书中展示了计算机系统结构课程中的那些概念

是如何生动地体现在一个实际应用系统中的。下篇介绍挑战性更强一些的内容。

这一部分我就没怎么看懂过,虽然前面几部分看的还行,还不是很迷糊,到了这

一部分高级的应用感觉已经更不上了。我看过一些这方法的视频教程,讲的还可

以,但是也只是涉及到一些表面上的知识。不会太深入的讲解。还有一部分讲解

的全是技术方法方面的知识,这一部分我还没怎么看过,就像lucene搜索引擎,

看了一部分java的代码,看不太懂,后来就没看,感觉先把书上的知识点,或

是搜索引擎的原理部分看懂以后应该看那些技术的部分可能会好一点。

前面我所讲的一般称之为是通用搜索引擎为最广泛的人群提供信息查询服

务是它的基本宗旨。这意味着它的应用模式必须尽量简单,即关键词或查询短语

的提交和匹配响应。尽管这已经可以解决许多问题了,但对有些重要的信息需求

依然显得力不从心。

上篇的主要目的是向读者介绍典型Web搜索引擎的基本工作原理,并通过

一个实例具体展示该工作原理中各个环节的一种实现方法,首先指出,所谓“搜

索引擎”,说到底是一个计算机应用软件系统,或者说是一个网络应用软件系统。

从网络用户的角度看,它根据用户提交的类自然语言查询词或者短语,返回一系

列很可能与该查询相关的网页信息,供用户进一步判断和选取。为了有效地做到

这一点,它大致上被分成三个功能模块,或者三个子系统;即网页搜集,预处理

和查询服务。

第二章详细分析了这三个部分的主要功能和其中需要关注的种种问题。应该

指出,在实践中这三个部分是相对独立的,它们的工作形成了搜索引擎工作的三

个阶段,通常分别由人工启动。同时我们注意到,在早期的搜索引擎中,系统处

理的网页数量少,预处理部分的工作比较简单,只是涉及到汉语的分词和建索引,

因此也有将分词合并到网页搜集过程中,将建索引归到查询服务子系统中,从而

整个系统看起来只有两个模块的安排。至于具体的总结下一阶段会继续呈现出

来,以上的一部分内容摘抄自原书,我感觉总结的很好,其中自己改了一部分,

让自己以后看起来的时候能够一目了然,毕竟全是别人的东西就不会有自己的想

法,也就不会和自己产生共鸣。只有自己写过的总结才是自己的,完全抄别人的

总结结果还是别人的,当然这只是我自己的认为,不管对与否,人总是会慢慢成

长的,一般来说一本书我会看好几遍前面几遍主要是打下基础,形成树的基本框

架。然后具体化我们树枝树干,以后树才能长的很茂密。我们所获得知识才会越

来越多。这周的总结就到这里,感觉获得的还不错,和自己预期的查差了多少,

我会继续努力,争取早日发表论文。

本文标签: 搜索引擎信息网页技术工作