ElasticSearch学习之(一)--搜索引擎的认知|电子爱好者

admin管理员组
文章数量:1577816

一、什么事搜索引擎

1.搜索引擎定义

搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上采集信息，在对信息进行组织和处理后，为用户提供检索服务，将检索的相关信息展示给用户的系统。搜索引擎是工作于互联网上的一门检索技术，它旨在提高人们获取搜集信息的速度，为人们提供更好的网络使用环境。从功能和原理上搜索引擎大致被分为全文搜索引擎、元搜索引擎、垂直搜索引擎和目录搜索引擎等四大类。

搜索引擎发展到今天，基础架构和算法在技术上都已经基本成型和成熟。搜索引擎已经发展成为根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。

2.搜索引擎分类

全文搜索引擎

一般网络用户适用于全文搜索引擎。这种搜索方式方便、简捷，并容易获得所有相关信息。但搜索到的信息过于庞杂，因此用户需要逐一浏览并甄别出所需信息。尤其在用户没有明确检索意图情况下，这种搜索方式非常有效。

元搜索引擎

元搜索引擎适用于广泛、准确地收集信息。不同的全文搜索引擎由于其性能和信息反馈能力差异，导致其各有利弊。元搜索引擎的出现恰恰解决了这个问题，有利于各基本搜索引擎间的优势互补。而且本搜索方式有利于对基本搜索方式进行全局控制，引导全文搜索引擎的持续改善。

垂直搜索引擎

垂直搜索引擎适用于有明确搜索意图情况下进行检索。例如，用户购买机票、火车票、汽车票时，或想要浏览网络视频资源时，都可以直接选用行业内专用搜索引擎，以准确、迅速获得相关信息。

目录搜索引擎

目录搜索引擎是网站内部常用的检索方式。本搜索方式旨在对网站内信息整合处理并分目录呈现给用户，但其缺点在于用户需预先了解本网站的内容，并熟悉其主要模块构成。总而观之，目录搜索方式的适应范围非常有限，且需要较高的人工成本来支持维护。

二、搜索引擎的原理

1.搜索引擎的工作原理

搜索引擎为了以最快的速度得到搜索结果，它搜索的通常是预先整理好的网页索引数据库。搜索引擎，不能真正理解网页上的内容，它只能机械地匹配网页上的文字。真正意义上的搜索引擎，通常指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个文字（即关键词）进行索引，建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候，所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后，这些结果将按照与搜索关键词的相关度高低，依次排列。

2.索引的两大类

正排索引（正向索引、前向索引）

正排表是以文档的ID为关键字，表中记录文档中每个字的位置信息，查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档。

正排表结构如图1所示，这种组织方法在建立索引的时候结构比较简单，建立比较方便且易于维护;因为索引是基于文档建立的，若是有新的文档加入，直接为该文档建立一个新的索引块，挂接在原来索引文件的后面。若是有文档删除，则直接找到该文档号文档对应的索引信息，将其直接删除。但是在查询的时候需对所有的文档进行扫描以确保没有遗漏，这样就使得检索时间大大延长，检索效率低下。

尽管正排表的工作原理非常的简单，但是由于其检索效率太低，除非在特定情况下，否则实用性价值不大。

倒排索引（反向索引）

倒排表以字或词为关键字进行索引，表中关键字所对应的记录表项记录了出现这个字或词的所有文档，一个表项就是一个字表段，它记录该文档的ID和字符在该文档中出现的位置情况。

由于每个字或词对应的文档数量在动态变化，所以倒排表的建立和维护都较为复杂，但是在查询的时候由于可以一次得到查询关键字所对应的所有文档，所以效率高于正排表。在全文检索中，检索的快速响应是一个最为关键的性能，而索引建立由于在后台进行，尽管效率相对低一些，但不会影响整个搜索引擎的效率。
倒排表的结构图如图2：

正排索引是从文档到关键字的映射（已知文档求关键字），倒排索引是从关键字到文档的映射（已知关键字求文档）。

三、搜索质量评估标准

检索领域两个最基本指标是召回率(Recall Rate)和精确率(Precision Rate)，召回率也叫查全率，精确率也叫查准率。主要目的为了判断该文档是否与用户的搜索请求相关。

如检索“酒店”，系统中所有的酒店内容就是相关，而“美食”的内容就是不相关的，一般情况下，相关的内容就是理论上需要完全被检索到的内容，但是可能搜索结果会与目标产生偏差。这里我们所说的“目标”是找出数据库中所有相关的内容，但是可能由于算法等原因没有呈现在搜索结果中。

通过是否相关和是否被检索到两个维度的指标，我们可以将检索完成后的内容分为四类。如下图：

精确率：搜索结果中有多少是正确的，所以计算公式的分子是结果中与目标相关的文档数（N），分母是所有的查询结果（N+M）。精确率是针对我们预测结果而言的，它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了，一种就是把正类预测为正类(TP)，另一种就是把负类预测为正类(FP)，也就是

召回率：搜索结果是否召回（覆盖）了系统中存在目标相关文档，所以计算公式的分子是结果中与目标相关的文档数（N），分母是所有与目标相关的文档（N+K）。召回率是针对我们原来的样本而言的，它表示的是样本中的正例有多少被预测正确了。那也有两种可能，一种是把原来的正类预测成正类(TP)，另一种就是把原来的正类预测为负类(FN)。

以上是作为学习ES过程对于搜索引擎的认知和总结，后面继续记录更新欢迎大家关注！！！

如有披露或问题欢迎留言或者入群探讨

本文标签：认知搜索引擎 Elasticsearch

版权声明：本文标题：ElasticSearch学习之(一)--搜索引擎的认知内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1727829235a1132448.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

ElasticSearch学习之(一)--搜索引擎的认知

一、什么事搜索引擎

二、搜索引擎的原理

三、搜索质量评估标准

更多相关文章

网盘搜索引擎以及网盘分享社区地址

免费的电子书搜索引擎-FreeMbook

除了谷歌，10个细分搜索引擎扩大你的流量池

搜索引擎索引的简单介绍

搜索引擎的查找算法实现

SEO（搜索引擎优化）浅谈普及一下搜索引擎的核心算法

收索资源好用的网盘搜索引擎

图解搜索引擎工作原理

网络安全工程师教你：Shadon网络空间搜索引擎使用教程

知识图谱搜索引擎

如何高效使用搜索引擎 - 善用高级搜索

搜索引擎网页排序算法

Python资料：python分布式爬虫打造搜索引擎

搜索引擎收藏

搜索引擎代码资源

搜索引擎面临的挑战及应对措施

十个图片搜索引擎（转）

【搜索引擎】强推！最好用资源最全的十个百度网盘搜索引擎

最全的全球搜索引擎的介绍

如何避免搜索引擎爬虫产生的流量过大

发表评论

推荐文章

QGIS之十一导入CAD文件dwgdxf

iOS 【App Store 最新审核指南】

Debian11.3连接隐藏WIFI

flac格式如何转mp3？超详细的6个转换方法

程序员搜索引擎比较

热门文章

CentOS 5 全功能WWW服务器搭建全教程 V3.0 【转】

计算机声音如何处理器,电脑风扇声音很大怎么办 CPU风扇声音很大的解决方法...

电脑文件夹怎么设置密码？让你的文件更安全！

计算机版本歌曲,酷我音乐2017旧版大全

微信历史版本

关于Ubuntu下deepin-wine升级QQ，TIM，Wechat的命令

windows电脑设置自动开关机

【Java中利用Runtime对象实现启动外部程序——设置电脑定时关机】

HCIP-H12-221练习题

centos7开机报错提示welcome to emergency mode！after logging in...

最新文章

raw服务器镜像文件怎么打开,利用qemu-img工具将其它格式镜像文件转换成VHD或RAW格式的方法...

windows下制作镜像教程

VM虚拟机使用的镜像文件下载

SD卡格式化怎么恢复？一键扫描，轻松找回丢失的数据

U盘未格式化之谜：数据丢失与恢复全攻略

Git for Windows 国内镜像文件

Win11安装VMware中的镜像的下载

Mac电脑pd虚拟机专用windows系统镜像(m1intel)win10、11镜像文件

2024 EasyRecovery三分钟帮你恢复 电脑硬盘格式化

fat32文件系统格式化后文件还能恢复吗

UUPdump最近无法下载windows镜像的问题

docker打包镜像文件，windows

虚拟机ISO镜像文件下载

莱卡相机sd内存卡格式化了怎么恢复数据

U盘打开提示要格式化：深度解析、恢复策略与预防之道

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

2024 EasyRecovery三分钟帮你恢复电脑硬盘格式化

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载