搜索引擎在构建图书馆网站统一检索系统中的应用|电子爱好者

admin管理员组
文章数量:1531708

2024年7月10日发(作者：)

科技情报开发与经济　

文章编号：１００５—６０３３（２０１３）２１—０１３７—０２　

ＳＣＩ—ＴＥＣＨ　ＩＮＦＯＲＭＡＴＩＯＮ　ＤＥＶＥＬＯＰＭＥＮＴ＆ＥＣＯＮＯＭＹ　２０１３年第２３卷第２１期　

收稿日期：２０１３—０９—０４　

搜索引擎在构建图书馆网站　

统一检索系统中的应用　

宿大东　

（南京图书馆，江苏南京，２１００１８）　

摘要：采用开源软件Ｎｕｔｃｈ和ｅｌａｓｔｉｃｓｅａｒｃｈ搭建了一个网站统一检索原型系统，用于　

解决图书馆门户网站建设过程中遇到的跨站点统一检索问题，并描述了具体的实施细　

节，在网络信息采集和检索应用方面具有一定的参考意义。　

关键词：统一检索；检索系ｇＥ；资源采集　

中图分类号：Ｇ２５４．９２４　文献标识码：Ａ　

在图书馆门户网站建设过程中，通常需要实现网站内容的　

检索功能，主要是在网站系统中检索内容数据库，通过字段匹配　

来获得相关内容。这适用于单一的规模不是很大的网站。但在有　

些情况下，图书馆门户网站下面会挂接多个相对独立的站点，如　

果采用基于数据库开发跨多个站点的检索功能，实现起来比较　

始一轮新的抓取循环。　

当抓取循环彻底结束，Ｎｕｔｃｈ调用ｅｌａｓｔｉｃｓｅａｃｈ搜索模块为抓　

取中生成的Ｓｅｇｍｅｎｔｓ创建索引，丢弃索引中有重复Ｕｄ和内容　

重复的网页，并合并Ｓｅｇｍｅｎｔｓ中的索引，生成最终的用于检索的　

Ｉｎｄｅｃｅｓ。这样用户就可以通过搜索界面提交搜索请求，通过搜索　

模块并行检索，获取查询结果。图１为检索系统工作流程图。　

复杂，检索效率也不会很高。而基于网络搜索引擎技术实现网站　

检索功能可能是一个更好的选择，因为搜索引擎天生具有跨多　

网站进行检索的功能。本文将采用开源软件搭建一个试验性的　

多网站统一检索系统，并在实际的场景中加以验证。　

１　Ｎｕｔｃｈ和ｅｌａｓｔｉｃｓｅａｒｃｈ介绍　

Ｎｕｔｃｈ是Ａｐａｃｈｅ基金会下面的企业级开源搜索引擎，提供了　

构建一个搜索引擎所需要的全部工具和功能，主要包括３个部　

分：抓取器（网络爬虫）、索引、搜索。使用Ｎｕｔｃｈ不仅可以建立自　

己内部网的搜索引擎，同时也可以针对整个网络建立搜索引擎。　

１．７以后版本专注于内容抓取，索引和搜索功能由外部提供。　

ｅｌａｓｔｉｃｓｅａｒｃｈ是基于ｌｕｃｅｎｅ的分布式实时搜索引擎。Ｎｕｔｃｈ　

和ｅｌａｓｔｉｃｓｅａｒｃｈ配合使用，组成完整的搜索引擎应用，Ｎｕｔｃｈ负责　

内容抓取，ｅｌａｓｔｉｃｓｅａｒｃｈ负责索引和查询。由于ｅｌａｓｔｉｅｓｅａｒｃｈ性能　

强大，配置简单，分布式扩展性好，所以很多知名的大型网站利　

用其实现检索功能。著名的Ｇｉｔｈｕｂ使用ｅｌａｓｔｉｃｓｅａｒｃｈ集群搜索它　

的２０ＴＢ的代码数据。　

图１检索系统工作流程图　

３构建图书馆统一检索系统　

利用Ｎｕｔｃｈ和ｅｌａｓｔｉｃｓｅａｒｃｈ构建图书馆统一检索系统。Ｎｕｔｃｈ　

爬行图书馆多个站点，抓取相应的网页数据，建立索引数据库，　

当需要浏览最终数据时，自动转发用户请求到相应的站点，这样　

就建立了跨多个站点的统一检索平台。接下来我们开始搭建实　

验环境，测试用Ｎｕｔｃｈ和ｅｌａｓｔｉｅｓｅａｒｃｈ进行内容抓取和检索。　

３．１使用Ｎｕｔｃｈ抓取数据　

２检索系统工作流程　

检索系统工作流程如下：首先，Ｎｕｔｃｈ根据ＷｅｂＤＢ中的种子　

Ｕｒｌ建立一个初始的待抓取的网页Ｕｒｌ集合Ｆｅｔｃｈｌｉｓｔ，接着抓取　

线程Ｆｅｔｃｈｅｒｓ并开始根据Ｆｅｔｃｈｌｉｓｔ抓取网页，如果抓取线程有多　

（１）安装环境：ＣｅｎｔＯＳ６．３；ｊｄｋ１．７．０＿２５；分布式数据库　

ｃａｓｓａｎｄｒａ－１＿２．８：ａｐａｃｈｅ－ａｎｔ一１．９．２　

（２）到ｎｕｔｃｈ．ａｐａｃｈｅ．ｏｒｇ下载ｎｕｔｃｈ２．２．１的源代码包，下载完　

成后解压。　

（３）配置Ｎｕｔｃｈ使用ｃａｓｓａｎｄｒａ作为数据存储，修改Ｎｕｔｃｈ根　

目录下ｉｖｙ／ｉｖｙ．ｘｍｌ文件，取消注释：＜ｄｅｐｅｎｄｅｎｃｙ　ｏｒｇ＝“ｏｒｇ．ａｐａｃｈｅ．　

ｇｏｒａ”ｎａｍｅ＝“ｇｏｒａ—ｃａｓｓａｎｄｒａ”ｒｅｖ＝“０－３”ｃｏｒｄ＇＝“　一＞ｄｅｆａｕｌｔ”，＞　

个，会生成多个Ｆｅｔｃｈｌｉｓｔ，每个Ｆｅｔｃｈｅｒ有一个对应的Ｆｅｔｅｈｌｉｓｔ。然　

后Ｆｅｔｃｈｅｒｓ根据抓取的网页对ＷｅｂＤＢ进行更新，根据更新后的　

ＷｅｂＤＢ生成新的Ｆｅｔｃｈｌｉｓｔ，里面是新发现或未抓取的Ｕｒｌｓ，并开　

修改Ｎｕｔｃｈ根目录下ｃｏｎｆ／ｇｏｒａ．ｐｒｏｐｅｒｔｉｅｓ文件，把默认存储　

】３７　

宿大东搜索引擎在构建图书馆网站统一检索系统中的应用　本刊Ｅ—ｍａｉｌ：ｂｊｂ＠ｓｘｉｎｆｏ．ｎｅｔ　信息工作研究　

配置改成如下：　

名称，主机之间可以利用ｐ２ｐ协议自动发现伙伴并组成集群。　

ｇｏｒａ．ｃａｓｓａｎｄｒａｓｔｏｒｅ．ｓｅｒｖｅｒｓ＝ｌｏｅａｌｈｏｓｔ：９１６０，并启动ｃａｓｓａｎｄｒａ。　

（４）修改ｃｏｎｆ目录下的ｎｕｔｃｈ—ｓｉｔｅ．ｘｍｌ文件，在＜ｃｏｎｆｉｇｕｒａｔｉｏｎ＞　

标签下加入：　

＜ｐｒｏｐｅｒｔｙ＞　

（２）测试使用ｅｌａｓｔｉｃｓｅａｒｃｈ建立索引。如果已经运行了　

ｅｌａｓｔｉｃｓｅａｒｃｈ，在Ｎｕｔｃｈ根目录下运行下面的命令建立索引：ｂｉｎ／　

ｎｕｔｃｈ　ｅｌａｓｔｉｃｉｎｄｅｘ　ｅｌｕｓｔｅｒｎａｍｅ　ａｌｌ，将ｃｌｕｓｔｅｍａｍｅ替换为指定集群　

名称，本例设置为ｅｌａｓｔｉｅｓｅａｒｅｈ。　

＜ｎａｍｅ＞ｈｔｔｐ．ａｇｅｎｔ．ｎａｍｅ＜／ｎａｍｅ＞　

通过阅读Ｎｕｔｃｈ代码发现，Ｎｕｔｃｈ以嵌入式方式来使用　

ｅｌａｓｔｉｃｓｅａｒｃｈ，不能在实际的生产环境下使用，需要修改　

ＥｌａｓｔｉｃＷｒｉｔｅｒ．ｊａｖａ代码才能连接到外部的ｅｌａｓｔｉｃｓｅａｒｃｈ服务器上：　

ｐｕｂｌｉｃ　ｖｏｉｄ　ｏｐｅｎ（ＴａｓｋＡｔｔｅｍｐｔＣｏｎｔｅｘｔ　ｊｏｂ）ｔｈｒｏｗｓ　ＩＯＥｘｃｅｐｔｉｏｎ｛，／　

＜ｖａｌｕｅ＞ｍｙＳｐｉｄｅｒ＜／ｖａｌｕｅ＞　

＜／ｐｒｏｐｅｒｔｙ＞　

？＜ｐｒｏｐｅｒｔｙ＞　

＜ｎａｍｅ＞ｈｔｔｐ．ａｃｃｅｐｔ．１ａｎｇｕａｇｅ＜／ｎａｍｅ＞　

＜ｖａｌｕｅ＞ｚｈ—ａｎ，ｅｎ—ｕｓ，ｅｎ—ｇｂ，ｅｎ；ｑ＝０．７，★；ｑ　Ｏ．３＜／ｖａｌｕｅ＞　

＜／ｐｒｏｐｅｒｔｙ＞　

＜ｐｒｏｐｅｒｔｙ＞　

＜ｎａｍｅ＞ｐａｒｓｅｒ．ｃｈａｒａｃｔｅｒ．ｅｎｃｏｄｉｎｇ．ｄｅｆａｕｈ＜／ｎａｍｅ＞　

＜ｖａｌｕｅ＞ｕｔｆ－８＜／ｖａｌｕｅ＞　

／＜ｐｒｏｐｅｒｔｙ＞　

＜ｐｒｏｐｅｒｔｙ＞　

＜ｎａｍｅ＞ｓｔｏｒａｇｅ．ｄａｔａ．ｓｔｏｒｅ．ｃｌａｓｓ＜／ｎａｍｅ＞　

＜ｖａｌｕｅ＞ｏｒｇ　ａｐａｃｈｅ．ｇｏｒａ．ｃａｓｓａｎｄｒａ．ｓｔｏｒｅ．ＣａｓｓａｎｄｒａＳｔｏｒｅ＜／ｖａｌｕｅ＞　

／＜ｐｒｏｐｅｒｔｙ＞　

＜ｐｒｏｐｅｒｔｙ＞　

＜ｎａｍｅ＞ｐｌｕｇｉｎ．ｉｎｃｌｕｄｅｓ＜／ｎａｍｅ＞　

＜ｖａｌｕｅ＞ｐｒｏｔｏｃｏｌ－ｈｔｔｐｌｕｒｌｉｆｈｅｒ－ｒｅｇｅｘＩｐａｒｓｅ一（ｈｔｍｌｌｔｉｋａ）ｌｉｎｄｅｘ一　

（ｂａｓｉｃ　ｌａｎｃｈｏｒ）ｌｕｒｌｎｏｒｍａｌｉｚｅｒ－（ｐａｓｓ　Ｉｒｅｇｅｘ　Ｉｂａｓｉｃ）Ｉｓｅｏｒｉｎｇ—ｏｐｉｃ＜，　

ｖａｌｕｅ＞　

／＜ｐｒｏｐｅｒｔｙ＞　

（５）使用ａｎｔ编译源码。在Ｎｕｔｃｈ根目录下输入ａｎｔ，会生成　

ｒｕｎｔｉｍｅ目录。　

（６）数据抓取。建立初始要抓取的ｕｒｌ：ｃｄ　ｍｎｔｉｍｅ／ｌ。ｃａｌ＆　

ｍｋｄｉｒ—Ｐ　ｕｒｌｓ　

新建ｕｒｌｓ／ｕｒｌ－ｌｘｔ文件，添加要采集的网址列表：　

ｈｔｔｐ：／／ｗｗｗ．ｊｓｌｉｂ．ｏｒｇ．ａｎ　

ｈｔｔｐ：／／ｗｗｗ．ｊｓｇｘｇｅ．ｏｒｇ．ａｎ　

开始抓取数据：ｂｉ／ｎｎｕｔｃｈ　ｃｒａｗｌ　ｕｄｓ／ｕｒ１．ｔｘｔ—ｄｅｐｔｈ　１０　ｔｏｐＮ　５０．　

可以将Ｎｕｔｃｈ设置成定时抓取。　

３．２使用ｅｌａｓｔｉｃｓｅａｒｃｈ为抓取内容建立索引并查询　

（１）安装配置ｅｌａｓｔｉｃｓｅａｒｃｈ。运行ｅｌａｓｔｉｅｓｅａｒｃｈ需要Ｊｄｋ，前面　

已经安装好ｊａｖａ运行环境。下载安装包并解压到安装目录：　

ｈｔｔｐｓ：／／ｅｏｄｅｌｏａｄ．ｇｉｔｈｕｂ．ｃｏｍ］ｍｅｄｃｌ／ｅｌａｓｔｉｃｓｅａｒｅｈ－ｒｔｆｚｉｐ／ｍａｓｔｅｒ，此安　

装包已经配置好分词插件、ｃａｒｒｏｔ２搜索结果聚合插件以及　

ｅｌａｓｔｉｃｓｅａｒｃｈ—ｓｅｒｖｉｃｅｗｒａｐｐｅｒ系统服务支持包，运行ｂｉ／ｎｓｅｒｖｉｃｅ／　

ｅｌａｓｔｉｃｓｅａｒｃｈ？ｉｎｓｔｌａｌ安装为系统服务，ｂｉ／ｎｓｅｒｖｉｃｅ　ｅｌａｓｔｉｃｓｅａｒｃｈ　

ｓｔａｒｔ／ｓｔｏｐ启动和停止服务。　

如果分布式部署，在ｃｏｎｉｆｇ目录下的ｅｌａｓｔｉｃｓｅａｒｃｈ．ｙｍｌ文件　

中可以设置集群名称。集群主机在同一网段，必须设置成一致的　

】３８　

将前７行注销掉，改成　

Ｓｅｔｔｉｎｇｓ　ｓｅｔｔｉｎｇｓ＝Ｉｍｍｕｔａｂ１ｅＳｅｔｔｉｎｇｓ．ｓｅｔｔｉｎｇｓＢｕｉｌｄｅｒ（）　

．

ｐｕｔ（“ｃｌｕｓｔｅｒ．ｎａｍｅ”，“ｅｌａｓｔｉｃｓｅａｒｃｈ”）　

．

ｐｕｔ（“ｃｌｉｅｎｔ．ｔｒａｎｓｐｏｒｔ．ｓｎｉｆｆ＇’．ｔｒｕｅ）　

．

ｐｕｔ（“ｎｏｄｅ．ｃｌｉｅｎｔ”，ｔｒｕｅ）　

．

ｐｕｔ（“ｃｌｉｅｎｔ．ｔｒａｎｓｐｏｒｔ．ｐｉｎｇ＿ｔｉｍｅｏｕｔ”，“１０ｓ”）．ｂｕｉｌｄ（）；　

ｃｌｉｅｎｔ＝ｎｅｗ　ＴｒａｎｓｐｏｒｔＣｌｉｅｎｔ（ｓｅｔｔｉｎｇｓ）．ａｄｄＴｍｎｓｐｏｎＡｄｄｒｅｓｓ　

（ｎｅｗＩｎｅｔＳｏｃｋｅｔＴｒａｎｓｐｏｒｔＡｄｄｒｅｓｓ（“１２７．０．０．１”，９３００））；……｝　

安装ｅｌａｓｔｉｃｓｅａｒｃｈ—ｈｅａｄ插件：ｂｉ／ｎｐｌｕｇｉｎ—ｉｎｓｔａｌｌ　ｍｏｂｚ／　

ｅｌａｓｔｉｃｓｅａｒｃｈ—ｈｅａｄ　

在浏览器中输入ｈｔｔｐ：／／ｌｃｏａｌｈｏｓｔ：９２００／＿＿ｐｌｕｇｉｎ／ｈｅａｄ／，可以看　

到抓取到的数据（见图２）。　

粤　蓬ｚ董　》　受　：～　＝一：＝一～：一ｊ＝一一一　∑　　’……　～：～　：　ｊ　＝蕊　童　一：一：：：：～　蔫雌　

曼　蠛　妻　：　卿－ｍ　＊　黼｛　’　

……　’　蛳　～。。ｋ　

４结语　

本文试图解决图书馆门户网站建设过程中遇到的跨多个站　

点统一检索的问题，并采用开源软件Ｎｕｔｃｈ和ｅｌａｓｔｉｃｓｅａｒｃｈ搭建　

了一个统一检索原型系统。该系统配置简单、性能强大并且具有　

可扩展性，不仅能够有效解决跨站点的检索问题，在图书馆自建　

数据库的跨库检索等方面也有一定的应用前景。该系统在细节　

方面还存在一些不足，需要根据实际情况进行定制开发。　

参考文献　

［１］　王天怡．基于词典的中文分词算法研究及其在Ｎｕｔｅｈ系统　

中的应用［Ｄ］．长春：吉林大学，２０１２．　

［２］叶海．分布式主题搜索引擎的研究与实现［Ｄ］广州：华南理　

工大学，２０１１．　

［３］徐健，张智雄．基于Ｎｕｔｃｈ的Ｗｅｂ网站定向采集系统［Ｊ］＿　

现代图书情报技术，２００９（４）：１－６．　

［４］韩云辉．基于Ｌｕｃｅｎｅ的数字版权资源库的构建与应用研究　

［Ｄ］．北京：北京工业大学，２０１３．　（下转第１５７页）　

任雪磊高职院校图书馆建设与发展研究综述　本刊Ｅ－ｍａｉｈｂｊｂ＠ｓｘｉｎｆｏ．ｎｅｔ　综述　

职业技术学院学报，２０１０（３）：７７—８０．　

［１５］鲁国晶．西部民族地区高职院校图书馆建设刍议［Ｊ］．黄冈　

职业技术学院学报，２００８（１）：５１—５３．　

（实习编辑：曲磊）　

第一作者简介：任雪磊，女，１９８５年ｌ２月生，２００９年毕业于　

华东师范大学日本语言文学专业，助理馆员，宁波大红鹰学院图　

书馆，浙江省宁波市鄞州区学院路８９９号，３１５１７５．　

Ｒｅｖｉｅｗ　ｏｆ　ｔｈｅ　Ｒｅｓｅａｒｃｈ　ｏｎ　ｔｈｅ　Ｃｏｎｓｔｒｕｃｔｉｏｎ　ａｎｄ　Ｄｅｖｅｌｏｐｍｅｎｔ　

ｏｆ　Ｌｉｂｒａｒｙ　ｏｆ　Ｈｉｇｈｅｒ　Ｖｏｃａｔｉｏｎａｌ　Ｃｏｌｌｅｇｅ　

ＲＥＮ　Ｘｕｅｌｅｉ　

ＡＢＳＴＲＡＣＴ：Ｔｈｉｓ　ｐａｐｅｒ　ｅｘｐｏｕｎｄｓ　ｔｈｅ　ｃｕｒｒｅｎｔ　ｓｉｔｕａｔｉｏｎ　ｏｆ　ｔｈｅ　ｃｏｎｓｔｒｕｃｔｉｏｎ　ａｎｄ　ｄｅｖｅｌｏｐｍｅｎｔ　ｏｆ　ｔｈｅ　ｌｉｂｒａｒｙ　ｏｆ　ｈｉｇｈｅｒ　

ｖｏｃａｔｉｏｎａｌ　ｃｏｌｌｅｇｅｓ，ａｎｄ　ｆｒｏｍ　ｔｈｒｅｅ　ａｓｐｅｃｔｓ　ｏｆ　ｔｈｅ　ｐｕｂｌｉｓｈｉｎｇ　ｙｅａｒｓ，ｌｉｔｅｒａｔｕｒｅ　ｓｏｕｒｃｅｓ　ａｎｄ　ｌｉｔｅｒａｔｕｒｅ　ｃｏｎｔｅｎｔｓ，ｓｔｕｄｉｅｓ　ａｎｄ　

ａｎａｌｙｚｅｓ　ｔｈｅ　ｐｅｒｔｉｎｅｎｔ　ｌｉｔｅｒａｔｕｒｅｓ　ａｂｏｕｔ　ｔｈｅ　ｃｏｎｓｔｕｃｔｒｉｏｎ　ａｎｄ　ｄｅｖｅｌｏｐｍｅｎｔ　ｏｆ　ｔｈｅ　ｌｉｂｒａｒｙ　ｏｆ　ｈｉｇｈｅｒ　ｖｏｃａｔｉｏｎａｌ　ｃｏｌｌｅｇｅ，ｗｈｉｃｈ　

ｉｓ　ｈｅｌｐｆｕｌ　ｔｏ　ｇｒａｓｐ　ｔｈｅ　ｒｅｓｅａｒｃｈ　ｓｔａｔｕｓ　ａｎｄ　ｄｅｖｅｌｏｐｍｅｎｔ　ｏｆ　ｌｉｂｒａｒｙ　ｃｏｎｓｔｕｃｔｒｉｏｎ　ａｎｄ　ｄｅｖｅｌｏｐｍｅｎｔ　ｔｒｅｎｄｓ　ｏｆ　ｔｈｅ　ｌｉｂｒａｒｙ　ｏｆ　

ｈｉｇｈｅｒ　ｖｏｃａｔｉｏｎａｌ　ｃｏｌｌｅｇｅ．　

ＫＥＹ　ＷＯＲＤＳ：ｌｉｂｒａｒｙ；ｈｉｇｈｅｒ　ｖｏｃａｔｉｏｎａｌ　ｃｏｌｌｅｇｅ；ｃｏｎｓｔｕｃｔｒｉｏｎ；ｄｅｖｅｌｏｐｍｅｎｔ　

（上接第１０８页）　

Ｓｔａｔｉｓｔｉｃａｌ　Ａｎａｌｙｓｉｓ　ｏｎ　Ｓｃｉ－ｔｅｃｈ　Ｐａｐｅｒｓ　ｏｆ　Ｓｈａｎｘｉ　Ｐｒｏｖｉｎｃｅ　ｉｎ　２０１　１　

ＬＩ　Ｑｉａｎｇ　

ＡＢＳＴＲＡＣＴ：Ｔｈｉｓ　ｐａｐｅｒ　ｍａｋｅｓ　ａ　ｓｔａｔｉｓｔｉｃａｌ　ａｎａｌｙｓｉｓ　ｏｎ　ｓｃｉ－ｔｅｃｈ　ｐａｐｅｒｓ　ｏｆ　Ｓｈａｎｘｉ　Ｐｒｏｖｉｎｃｅ　ｃｏｌｌｅｃｔｅｄ　ｂｙ　ＳＣＩ　ａｎｄ　ＥＩ　ｉｎ　２０１　１　

ｆｒｏｍ　ａｓｐｅｃｔｓ　ｏｆ　ｔｈｅ　ｎｕｍｂｅｒ　ｏｆ　ｓｃｉ－ｔｅｃｈ　ｐａｐｅｒｓ，ｓｕｂｊｅｃｔ　ａｒｅａｓ，ｄｉｓｔｒｉｂｕｔｉｏｎ　ｏｆ　ｒｅｇｉｏｎｓ　ａｎｄ　ａｇｅｎｃｉｅｓ，ｈｉｇｈ　ｏｕｔｐｕｔ　ａｕｔｈｏｒｓ，ｉｎｔｅｒｖａｌ　

ｄｉｓｔｉｒｂｕｔｉｏｎ　ｏｆｉｎｔｅｒｎａｔｉｏｎａｌ　ｐａｐｅｒｓ（ＳＣＩ），ａｎｄ　ｉｍｐａｃｔ　ｆａｃｔｏｒ，ｅｔｃ．Ｔｈｅ　ｄａｔａ　ｓｈｏｗ　ｔｈａｔ　ｔｈｅ　ｓｃｉｅｎｔｉｉｆｃ　ｒｅｓｅａｒｃｈ　ａｂｉｌｉｔｙ　ａｎｄ　ａｃａｄｅｍｉｃ　

ｌｅｖｅｌ　ｏｆ　ｕｎｉｖｅｒｓｉｔｉｅｓ　ａｎｄ　ｒｅｓｅａｒｃｈ　ｉｎｓｔｉｔｕｔｉｏｎｓ　ｉｎ　Ｓｈａｎｘｉ　Ｐｒｏｖｉｎｃｅ　ｈａｖｅ　ｉｎｃｒｅａｓｅｄ　ｌａｒｇｅｌｙ，ｂｕｔ　ｃｏｍｐａｒｅｄ　ｗｉｔｈ　ｏｔｈｅｒ　ｐｒｏｖｉｎｃｅｓ　ｉｎ　

ｏｕｒ　ｃｏｕｎｔｒｙ，Ｓｈａｎｘｉ　Ｐｒｏｖｉｎｃｅ　ｓｔｉｌｌ　ｎｅｅｄｓ　ｔｏ　ｂｅ　ｆｕｒｔｈｅｒ　ｉｍｐｒｏｖｅｄ　ｉｎ　ｔｈｅ　ｑｕａｎｔｉｔｙ　ａｎｄ　ｑｕａｌｉｔｙ　ｏｆ　ｓｃｉ－ｔｅｃｈ　ｐａｐｅｒｓ．　

ＥＹ　ＫＷＯＲＤＳ：ｓｃｉ—ｔｅｃｈ　ｐａｐｅｒ；ｓｔａｔｉｓｔｉｃａｌ　ａｎａｌｙｓｉｓ；Ｓｈａｎｘｉ　Ｐｒｏｖｉｎｃｅ　

（上接第１３８页）　

［５］Ｒｅｆｅｒｅｎｃｅ　ｇｕｉｄｅ．ｅｌａｓｔｉｃｓｅａｒｃｈ［ＥＢ／ＯＬ］．［２０１３—０８—１０］．ｈｔｔｐ：／／　

ｖＡ￣Ｎ＇Ｗ．ｅｌａｓｔｉ　ｃｓｅａｒｃｈ．ｏｒｇ／ｕｉｇｄｅ／．　

第一作者简介：宿大东，男，１９７４年９月生，１９９９年毕业于　

北京大学编辑学专业，馆员，南京图书馆信息资源开发部，江苏　

（责任编辑：李敏）　

省南京市中山东路１８９号，２１０００２．　

Ｔｈｅ　Ａｐｐｌｉｃａｔｉｏｎ　ｏｆ　Ｓｅａｒｃｈ　Ｅｎｇｉｎｅ　ｉｎ　Ｃｏｎｓｔｒｕｃｔｉｎｇ　ｔｈｅ　Ｕｎｉｉｅｄ　ｆ

Ｒｅｔｒｉｅｖａｌ　Ｓｙｓｔｅｍ　ｏｆ　Ｌｉｂｒａｒｙ　Ｗｅｂｓｉｔｅ　

ＳＵ　Ｄａｄｏｎｇ　

ＡＢＳＴＲＡＣＴ：Ｔｈｉｓ　ｐａｐｅｒ　ｓｅｔｓ　ｕｐ　ａ　ｕｎｉｉｆｅｄ　ｗｅｂｓｉｔｅ　ｒｅｔｒｉｅｖａｌ　ｐｒｏｔｏｔｙｐｅ　ｓｙｓｔｅｍ　ｂｙ　ｕｓｉｎｇ　ｔｈｅ　ｏｐｅｎ　ｓｏｕｒｃｅ　ｓｏｆｔｗａｒｅｓ　Ｎｕｔｃｈ　ａｎｄ　

ｅｌａｓｔｉｅｓｅａｒｅｈ　ｆｏｒ　ｓｏｌｖｉｎｇ　ｔｈｅ　ｃｒｏｓｓ—ｓｉｔｅ　ｕｎｉｉｅｄ　ｒｅｔｆｉｅｖａｌｒ　ｐｒｏｂｌｅｍ　ｅｘｉｓｔｉｎｇ　ｉｎ　ｔｈｅ　ｐｒｏｃｅｓｓ　ｏｆ　ｔｈｅ　ｃｏｎｓｔｕｃｔｒｉｏｎ　ｏｆ　ｌｉｂｒａｒｙ’ｓ　

ｐｏｒｔａｌ　ｗｅｂｓｉｔｅ，ａｎｄ　ｄｅｓｃｒｉｂｅｓ　ｔｈｅ　ｓｐｅｃｉｉｆｃ　ｉｍｐｌｅｍｅｎｔａｔｉｏｎ　ｄｅｔａｉｌｓ，ｗｈｉｃｈ　ｈａｓ　ａ　ｃｅｒｔａｉｎ　ｒｅｆｅｒｅｎｃｅ　ｓｉｇｎｉｉｆｃａｎｃｅ　ｉｎ　ａｓｐｅｃｔｓ　ｏｆ　

ｎｅｔｗｏｒｋ　ｉｎｆｏｒｍａｔｉｏｎ　ｃｏｌｌｅｃｔｉｏｎ　ａｎｄ　ｒｅｔｒｉｅｖａｌ　ａｐｐｌｉｃａｔｉｏｎｓ．　

ＫＥＹ　ＷＯＲＤＳ：ｕｎｉｉｆｅｄ　ｒｅｔｉｅｖａｌ；ｒｅｔｒｉｅｖａｌｒ　ｓｙｓｔｅｍ；ｒｅｓｏｕｒｃｅ　ｃｏｌｌｅｃｔｉｏｎ　

１　Ｓ７　

本文标签：检索图书馆抓取网站统一

版权声明：本文标题：搜索引擎在构建图书馆网站统一检索系统中的应用内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1720617083a834204.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

搜索引擎在构建图书馆网站统一检索系统中的应用

更多相关文章

网站微信扫码授权登录

10个国内外素材网站，提供免费 Photoshop 素材下载资源

大学生必备的十大网站有哪些？

85万个网站受影响：浏览器将停止支持TLS 1.01.1的HTTPS网站

10个国内免费AI绘画网站汇总【2024最新】

html+CSS做小米商城网站

如何禁止电脑访问某个网站

网站域名被封锁、被屏蔽、被和谐后该如何处理

网站百度统计referrer被禁用解决方案

华硕服务器网站,华硕云服务器

服务器但未对连接尝试做出响应,网站处于联机状态，但未对连接做出响应

阿里服务器网站访问非常慢,更换本地DNS 解决网站访问速度变慢问题

如何下载在线课程网站的视频

mac下如何下载各大视频网站的视频

大型网站系统架构演化实例_7.使用NoSQL和搜索引擎

matebook14连接wifi不可用，可以ping通，浏览器无法访问网站

python中requests模块有些网站不能访问解决方案

史上最坑爹外包！花费2亿耗时2年，网站至今未交付

无需翻墙,免费AI代码生成网站

比chatgpt稍逊的ai问答网站phind，专用于编写代码

发表评论

推荐文章

“我哭死！用ChatGPT完成的硕士论文被评不及格……”

【UTMB】如何查看 UTMB 个人积分 | 个人表现分 | 对比ITRA与UTMB表现分

解決windows10和Ubuntu16.04双系统后windows10不能正常启动

【Windows10】进入安全模式

关于无法完全停止windowsUpdate的解决方法

热门文章

（翻译）承诺与一致原理（Commitment &amp; consistency）

“Cypress不能选择Chrome浏览器”的解决方法

一分钟解决Chrome浏览器主页被hao123、360和2345篡改简单有效方法

2024破解版CorelDRAW新功能揭秘+免费序列号激活码！

CleanMyMac X 与 CleanMyMac 3 的功能对比 cleanmymac x值得买吗 CleanMyMac X：新时代的 Mac 清理软件 CleanMyMac X激活码密钥永久

服务器主板支持专用条,AMD专用条又要火了？在H110平台上竟然可以完美使用

使用whistle进行手机抓包并调试

Linux运维精华面试题

移动硬盘已连接USB我的电脑不显示的全网最细汇总多种解决方法（保姆级图文详细步骤）

golang语言 []interface{}和interface{}

最新文章

【win10专业版】win7xp双系统的启动顺序如何设置

win7卡在正在启动windows界面_分享一下WIN7系统下运行红警2的方法

世界上最简单系统安装方法(适合XP升级win7系统)

如何从xp升级到WIN7

VMware虚拟机安装windows server 2012 R2教程（图文版 超详细！）

计算机学win7画图,Win7系统自带画图工具如何打开？win7打开画图工具教程

Win7 XP双系统安装

python打包xp系统_python打包的exe为啥在XP上提示“不是有效的WIN32程序”

win7变成xp风格了怎么改回_win7

xp的服务器系统怎么安装win7系统教程,教你xp系统下安装win7双系统的教程

win7 兼容 因特尔十代_Window XP的不再更新：从第7代开始，Intel的CPU可能全面进入Win10时代...

win7装sql2000找不到服务器,WIN7 64位系统 SQL2000服务无法启动

win7 程序无响应 服务器,Win7系统下点击程序运行无响应怎么办？

xpvista系统升级为win7

linux命令之主机与虚拟机之间挂载iso镜像文件

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

（翻译）承诺与一致原理（Commitment & consistency）

VMware虚拟机安装windows server 2012 R2教程（图文版超详细！）

win7 兼容因特尔十代_Window XP的不再更新：从第7代开始，Intel的CPU可能全面进入Win10时代...

win7 程序无响应服务器,Win7系统下点击程序运行无响应怎么办？

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载