admin管理员组

文章数量:1532269

2024年7月10日发(作者:)

说实话,这本书看了好几遍都是看不懂的,虽然说这本书是搜索引擎方面的

入门书籍,我还是感觉这本书讲得比较详细,里面涉及到的知识点太多了,短期

内很难吃透,所以一般平时我都是看这本书的,当然也攻克了许多难点,从梁斌

的那本走进搜索引擎书中学到的比较简单的东西或是方法,然后运用到这本书上

时感觉顿时明白了许多。下面就一点一点的总结一下自己看过的内容,或是看了

过后有些感触的知识点。全书共分为11章,不算多,大部分内容一般的信息检

索书中也有讲到,搜索引擎的参考书中也会介绍部分。这本书叫做实践,说明要

求我们参与实践的环节,书中介绍了一种开源的搜索引擎,我也上网找过一些,

看了相关的代码,不是看的很懂,或是看不懂。

本书从信息检索的起源开始讲起的,当然一开始的还是概念性的东西。信息

检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,

至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。随着

1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并

与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报检索系统

相继研制成功并商业化,早期的信息检索是图书领域的相关术语,和计算机不是

很有关系。到20世纪60年代到80年代,在信息处理技术、通讯技术、计算机

和数据库技术的推动下,信息检索在教育、军事和商业等各领域高速发展,得到

了广泛的应用。Dialog国际联机情报检索系统是这一时期的信息检索领域的代

表,至今仍是世界上最著名的系统之一。

下面从定义来讲一下,信息检索有一些类别。信息检索有广义和狭义的之分。

广义的信息检索全称为“信息存储与检索”,是指将信息按一定的方式组织和存储

起来,并根据用户的需要找出有关信息的过程。狭义的信息检索为“信息存储与

检索”的后半部分,通常称为“信息查找”或“信息搜索”,是指从信息集合中找出

用户所需要的有关信息的过程。狭义的信息检索包括3个方面的含义:了解用户

的信息需求、信息检索的技术或方法、满足信息用户的需求。由信息检索原理可

知,信息的存储是实现信息检索的基础。这里要存储的信息不仅包括原始文档数

据,还包括图片、视频和音频等,首先要将这些原始信息进行计算机语言的转换,

并将其存储在数据库中,否则无法进行机器识别。待用户根据意图输入查询请求

后,检索系统根据用户的查询请求在数据库中搜索与查询相关的信息,通过一定

的匹配机制计算出信息的相似度大小,并按从大到小的顺序将信息转换输出。

(一)按存储与检索对象划分,信息检索可以分为:

文献检索

数据检索

事实检索

以上三种信息检索类型的主要区别在于:数据检索和事实检索是要检索

出包含在文献中的信息本身,而文献检索则检索出包含所需要信息的文献即可。

(二)按存储的载体和实现查找的技术手段为标准划分:

手工检索

机械检索

计算机检索

其中现在发展比较迅速的计算机检索是“网络信息检索”,

计算机信息检索概述

也即网络信息搜索,是指互联网用户在网络终端,通过特定的网络搜索工具

或是通过浏览的方式,查找并获取信息的行为。(三)按检索途径划分:

直接检索

间接检索

信息内容分析与编码,产生信息记录及检索标识。组织存贮,将全部记录按

文件、数据库等形式组成有序的信息集合。用户提问处理和检索输出。关键部分

是信息提问与信息集合的匹配和选择,即对给定提问与集合中的记录进行相似性

比较,根据一定的匹配标准选出有关信息。它按对象分为文献检索、数据检索和

事实检索;按设备分为手工检索、机械检索和计算机检索。由一定的设备和信息

集合构成的服务设施称为信息检索系统,如穿孔卡片系统、联机检索系统、光盘

检索系统、多媒体检索系统等。信息检索最初应用于图书馆和科技信息机构,后

来逐渐扩大到其他领域,并与各种管理信息系统结合在一起。与信息检索有关的

理论、技术和服务构成了一个相对独立的知识领域,是信息学的一个重要分支,

并与计算机应用技术相互交叉。

智能检索或知识检索

传统的全文检索技术基于关键词匹配进行检索,往往存在查不全、查不

准、检索质量不高的现象,特别是在网络信息时代,利用关键词匹配很难满足人

们检索的要求。智能检索利用分词词典、同义词典,同音词典改善检索效果,比

如用户查询“计算机”,与“电脑”相关的信息也能检索出来;进一步还可在知识层

面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典,形

成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的

检索

虚拟图书馆与网上信息检索

效果,比如用户可以进一步缩小查询范围至“微机”、“服务器”或扩大查询至

“信息技术”或查询相关的“电子技术”、“软件”、“计算机应用”等范畴。另外,智

能检索还包括歧义信息和检索处理,如“苹果”,究竟是指水果还是电脑品牌,“华

人”与“中华人民共和国”的区分,将通过歧义知识描述库、全文索引、用户检索

上下文分析以及用户相关性反馈等技术结合处理,高效、准确地反馈给用户最需

要的信息。知识挖掘

主要指文本挖掘技术的发展,目的是帮助人们更好的发现、组织、表示

信息,提取知识,满足信息检索的高层次需要。知识挖掘包括摘要、分类(聚类)

和相似性检索等方面。

自动摘要就是利用计算机自动地从原始文献中提取文摘。在信息检索

中,自动摘要有助于用户快速评价检索结果的相关程度,在信息服务中,自动摘

要有助于多种形式的内容分发,如发往PDA、手机等。相似性检索技术基于文

档内容特征检索与其相似或相关的文档,是实现用户个性化相关反馈的基础,也

可用于去重分析。自动分类可基于统计或规则,经过机器学习形成预定义分类树,

再根据文档的内容特征将其归类;自动聚类则是根据文档内容的相关程度进行分

组归并。自动分类(聚类)在信息组织、导航方面非常有用。

异构信息整合检索和全息检索

在信息检索分布化和网络化的趋势下,信息检索系统的开放性和集成性

要求越来越高,需要能够检索和整合不同来源和结构的信息,这是异构信息检索

技术发展的基点,包括支持各种格式化文件,如TEXT、HTML、XML、RTF、

MS Office、PDF、PS2/PS、MARC、ISO2709等处理和检索;支持多语种信息的

检索;支持结构化数据、半结构化数据及非结构化数据的统一处理;和关系数据

库检索的无缝集成以及其他开放检索接口的集成等。所谓“全息检索”的概念就是

支持一切格式和方式的检索,从实践来讲,发展到异构信息整合检索的层面,基

于自然语言理解的人机交互以及多媒体信息检索整合等方面尚有待取得进一步

突破。

另外,从工程实践角度,综合采用内存和外部存储的多级缓存、分布式

群集和负载均衡技术也是信息检索技术发展的重要方面。

随着互联网的普及和电子商务的发展,企业和个人可获取、需处理的信

息量呈爆发式增长,而且其中绝大部分都是非结构化和半结构化数据。内容管理

的重要性日益凸现,而信息检索作为内容管理的核心支撑技术,随着内容管理的

发展和普及,亦将应用到各个领域,成为人们日常工作生活的密切伙伴。

检索原因

1.信息检索是获取知识的捷径

美国普林斯顿大学物理系一个年轻大学生名叫约瀚·菲利普,在图书馆

里借阅有关公开资料,仅用四个月时间,就画出一张制造原子弹的设计图。他设

计的原子弹,体积小(棒球大小)、重量轻(7.5公斤)、威力大(相当广岛原子弹3/4

的威力),造价低(当时仅需两千美元),致使一些国家(法国、巴基斯坦等)纷纷

致函美国大使馆,争相购买他的设计拷贝。

二十世纪七十年代,美国核专家泰勒收到一份题为《制造核弹的方法》

的报告,他被报告精湛的技术设计所吸引,惊叹地说:“至今我看到的报告中,

它是最详细、最全面的一份。

信息检索系统的体系结构

告的全部信息来源又都是从图书馆那些极为平常的、完全公开的图书资料中

所获得的。

2 .信息检索是科学研究的向导

美国在实施“阿波罗登月计划”中,对阿波罗飞船的燃料箱进行压力实验

时,发现甲醇会引起钛应力腐蚀,为此付出了数百万美元来研究解决这一问题,

事后查明,早在十多年前,就有人研究出来了,方法非常简单,只需在甲醇中加

入2%的水即可,检索这篇文献的时间是10多分钟。在科研开发领域里,重复劳

动在世界各国都不同程度地存在。据统计,美国每年由于重复研究所造成的损失,

约占全年研究经费的38%,达20亿美元之巨。日本有关化学化工方面的研究课

题与国外重复的,大学占40%、民间占47%、国家研究机构占40%,平均重复

率在40%以上;中国的重复率则更高。专业研究的程序

3.信息检索是终身教育的基础

学校培养学生的目标是学生的智能:包括自学能力、研究能力、思维能

力、表达能力和组织管理能力。

UNESCO提出,教育已扩大到一个人的整个一生,认为唯有全面的终

身教育才能够培养完善的人,可以防止知识老化,不断更新知识,适应当代信息

社会发展的需求。

四个要素

1 信息检索的前提----信息意识

所谓信息意识,是人们利用信息系统获取所需信息的内在动因,具体表

现为对信息的敏感性、选择能力和消化吸收能力,从而判断该信息是否能为自己

或某一团体所利用,是否能解决现实生活实践中某一特定问题等一系列的思维过

程。信息意识含有信息认知、信息情感和信息行为倾向三个层面。

信息素养(素质)(Information Literacy)一词最早是由美国信息产业协

会主席Paul Zurkowski在1974年给美国政府的报告中提出来的。他认为:信息

素质是人们在工作中运用信息、学习信息技术、利用信息解决问题的能力。

2.信息检索的基础----信息源

信息源的构成

按文献载体分----印刷型、缩微型、机读型、声像型

按文献内容和加工程度分--一次信息、二次信息、三次信息

按出版形式分----图书、报刊、研究报告、会议信息、专利信 息、统计

数据、政府出版物、档案、学位论文、标准信息(它们被认为是十大信息源,其

中后8种被称为特种文献。教育信息资源主要分布在教育类图书、专业期刊、学

位论文等不同类型的出版物中)

3.信息检索的核心----信息获取能力

1.了解各种信息来源

2.掌握检索语言

3. 熟练使用检索工具

4.能对检索效果进行判断和评价

判断检索效果的两个指标:

查全率=被检出相关信息量/相关信息总量(%)

查准率=被检出相关信息量/被检出信息总量(%)

4.信息检索的关键:信息利用

社会进步的过程就是一个知识不断的生产—流通—再生产的过程。

为了全面、有效地利用现有知识和信息,在学习、科学研究和生

简单的信息检索搜索

活过程中,信息检索的时间比例逐渐增高。

获取学术信息的最终目的是通过对所得信息的整理、分析、归纳和总结,

根据自己学习、研究过程中的思考和思路,将各种信息进行重组,船造出新的知

识和信息,从而达到信息激活和增值的目的。

检索方法

信息检索方法包括:普通法、追溯法和分段法。1.普通法是利用书目、

文摘、索引等检索工具进行文献资料查找的方法。运用这种方法的关键在于熟悉

各种检索工具的性质、特点和查找过程,从不同角度查找。普通法又可分为顺检

法和倒检法。顺检法是从过去到现在按时间顺序检索,费用多、效率低;倒检法

是逆时间顺序从近期向远期检索,它强调近期资料,重视当前的信息,主动性

相关书籍

强,效果较好。

2.追溯法是利用已有文献所附的参考文献不断追踪查找的方法,在没有

检索工具或检索工具不全时,此法可获得针对性很强的资料,查准率较高,查全

率较差。

3.分段法是追溯法和普通法的综合,它将两种方法分期、分段交替使

用,直至查到所需资料为止。

本文标签: 信息检索信息检索技术用户