搜索引擎架构图|电子爱好者

admin管理员组
文章数量:1578029

1.搜索引擎架构图

（a）抓取网页

搜索引擎的信息源来自于互联网网页，通过网络爬虫将互联网的信息获取到本地. 因为互联网页面中有相当大比例的内容是完全相同或者近似重复的，"网页去重"模块会对此做出检測，并去除重复内容。

（b）建立索引

抓取到网页后，搜索引擎会对网页进行解析，抽取出网页主体内容和相关信息，（包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等）。根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页建立索引。为了加快响应用户査询的速度，网页内容通过"倒排索引"这种高效查询数据结构来保存，而网页之间的链接关系也会予以保存。之所以要保存链接关系，是因为这种关系在网F相关性排序阶段是可利用的，通过"链接分析"可以判断页面的相对重要性，对于为用户提供准确的搜索结果帮助很大。

由于网页数量太多，搜索引擎不仅需要保存网页原始信息，还要存储一些中间的处理结果使用单台或者少量的机器明显是不现实的。Google等商业搜索引擎为此开发了一整套云存储与云计算平台，使用数以万计的普通廉价PC搭建了海量信息的可靠存储与计算架构，以此作为搜索引擎及其相关应用的基础支撑。优秀的云存储与云计算平台已经成为大型商业搜索引擎的核心竞争力。上面所述是搜索引擎如何获取并存储海量的网页相关信息，这些功能因为不需要实时计算，所以可以被看做是搜索弓I擎的后台计算系统。

（c）查询词分析

搜索引擎的最重要目的是为用户提供准确全面的搜索结果，如何响应用户査询并实时地提供准确结果构成了搜索引擎前台计算系统。当搜索引擎接收到用户的査询词后，首先需要对查询词进行分析，希望能够结合查询词和用户信息来正确推导用户的真正搜索意图。在此之后，首先在缓存中査找，搜索引擎的缓存系统存储了不同的查询意图对应的搜索结果，如果能够在缓存系统找到满足用户需求的信息，则可以直接将搜索结果返回给用户，这样既省掉了重复计算对资源的消耗，又加快了响应速度;

（d）搜索结果排序

如果保存在缓存的信息无法满足用户需求，搜索引擎需要调用"网页排序"模快功能，根据用户的査询实时计算哪些网页是满足用户信息需求的，并排序输出作为搜索结果。而网页排序最重要的两个参考因素中，一个是内容相似性因素，即哪些网页是和用户查询密切相关的；另外一个是网页重要性因素，即哪些网页是质量较好或者相对重要的，这点往往可以从链接分析的结果获得。结合以上两个考虑因素，就可以对网页进行排序，作为用户查询的搜索结果。

本文标签：搜索引擎架构图

版权声明：本文标题：搜索引擎架构图内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1727830981a1132602.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

搜索引擎架构图

更多相关文章

度娘小技巧(搜索引擎高级搜索)

手把手教你使用Python打造一款简易搜索引擎

详细分析推荐系统和搜索引擎的差异陈运文

搜索引擎索引的简单介绍

个人博客 SEO 优化（1）：搜索引擎原理介绍

收索资源好用的网盘搜索引擎

新建好的网站如何被搜索引擎（Google和百度）收录？

大搜索引擎系统架构

数据挖掘在搜索引擎中的应用

如何高效使用搜索引擎 - 善用高级搜索

常用谷歌地址和常用搜索引擎

100个隐秘的实用搜索引擎

注意：网站中出现以下违规内容-搜索引擎百度都不收录

关于信息检索（IR）、搜索引擎的学与思

Web搜索引擎技术

【搜索引擎】强推！最好用资源最全的十个百度网盘搜索引擎

Iviews视频搜索引擎

搜索的艺术——搜索引擎使用心得

hexo高阶教程：想让你的博客被更多的人在搜索引擎中搜到吗？

搜索引擎存在问题

发表评论

推荐文章

学生专用计算机怎么没声音,详细教你解决电脑突然没声音

A-计算机毕业设计定制:95185危险品监管系统（免费领源码）可做计算机毕业设计JAVA、PHP、爬虫、APP、小程序、C# 、C++、python、数据可视化、大数据、全套文案

阿里编码规范

Android Studio 中遇到的Gradle build插件版本太低的问题：Plugin is too old

Mac新手教程——如何设置定时开关机？

热门文章

几种d3d12.dll丢失怎么修复的方法?一定能将丢失的d3d12.dll修复完成

Java 过滤器Filter简单理解

简单的文本加密解密

ChipGenius-U盘加密狗检测工具

已有python版本下的Anaconda+pytorch安装

电脑设置定时关闭影刀

win10修改ipv4信息

为什么要使用“搜索引擎”？（转）

2024专业U盘格式化数据恢复工具推荐榜

硬盘格式化后能恢复数据吗？教你三个简单的方法

最新文章

android x86触屏驱动下载,农步祥作品 - 使用台式机和触摸屏玩Android X86 [Soomal]

校运会管理系统设计与实现(源码+lw+部署文档+讲解等)

vncapp下载，vncapp下载怎么下载？下载教程

AI换脸Roop-Unleashed，一键整合包教程

装系统cmd 所需命令

手机软件何时统一——桥接模式

亚马逊平板刷机Linux系统,亚马逊平板刷机步骤盘点【图解】

斐讯N1盒子刷OpenWRT系统结合内网穿透远程管理本地软路由

解决宝塔面板无法下载软件和更新应用的问题

在安卓手机上安装完整LINUX系统

python的搜题软件下载_直播答题？Python助你自动搜题之新手篇！

美食信息推荐系统

【2025】springboot家装一体化服务平台背景（源码+文档+调试+答疑）

如何解决Windows 7中DLL文件缺失导致的文件无法打开问题？恢复系统正常运行的步骤

wps 2019智能填充

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载