搜索引擎的工作原理大致可以分为三个阶段|电子爱好者

admin管理员组
文章数量:1532249

2024年3月30日发(作者：)

搜索引擎的工作原理大致可以分为三个阶段：爬行和抓取、预处理、排名

一、爬行和抓取

搜索引擎用来爬行和访问页面的程序被称为蜘蛛（spider），也称为机器人（bot）。搜

索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器，蜘蛛程序发出页面访问请求后，

服务器返回HTML代码，蜘蛛程序把收到的代码存入原始页面数据库。为了提高爬行和抓

取速度，搜索引擎都是使用多个蜘蛛并发分布爬行。蜘蛛访问任何一个网站时都会先访问

网站根目录下的文件，吐过文件禁止搜索引擎抓取某些文件或者目

录，蜘蛛将遵守协议，不抓取被禁止的网址。所以文件对一个网站来说是至关

重要的。

为了抓取网上尽量多的页面，搜素引擎蜘蛛会跟踪页面上的链接，从一个页面爬行到

下一个页面，就好像蜘蛛在蜘蛛网上爬行一样，这就是搜素引擎蜘蛛名称的由来。

最简单的爬行遍历策略分为两种：深度优先、广度优先

深度优先：蜘蛛沿着发现的链接一直向前爬行，直到前面再也没有其他链接，然后返

回到第一个页面，沿着另一个链接再一直往前爬行。

广度优先：蜘蛛在一个页面上发现多个链接时，不是顺着一个链接一直向前，而是把

页面上所有第一层链接都爬一遍，然后再沿着第二层页面上发现的链接爬向第三层页面。

通常这两种爬行策略时混合使用的。

吸引蜘蛛的方法：◆提高网站和页面的权重，◆提高页面更新度，◆高质量的导入链接，

◆与首页点击距离近

为了避免重复爬行和抓取网址，搜索引擎会建立一个地址库，记录已经被发现还没有

抓取的页面和已经被抓取的页面。地址库来源：◆人工录入的种子网站，◆蜘蛛从抓取页面

获得的地址库中没有的网址，◆站长通过搜索引擎网页提交表格提交进来的网址

蜘蛛爬行的时候也会进行简单的复制内容检测，如果遇到权重很低的网站上大量转载

或抄袭内容时，很可能不再继续爬行，这也是很多权重低的网站页面更新的很多很快但却

没有被收录的原因之一。

二、预处理

●提取文字：搜索引擎预处理首先要做的就是从HTNL文件中去除标签、程序，提取

出可以用于排名处理的网页文字内容（还包括META标签中的文字、图片替代文字、FLASH

文件替代文字、链接锚点文字等）。

●中文分词：这一步在中文搜索引擎中才会用到。中文分词一般分为两类：字典匹配、

基于统计。

字典匹配：将待分析的一段汉字与一个事先造好的词典中的词条进行匹配，在待分析

汉字串中扫描到词典中已有的词条则匹配成功，或者说切分出一个单词。

基于统计：分析大量文字样本，计算出字与字相邻出现的统计概率，几个字相邻出现

越多，就越可能形成一个单词。

●去停止词：搜索引擎在索引页面之前会去掉一些停止词，如：“的”、“地”、“得”之

类的助词，“啊”、“哈”、“呀”之类的感叹词，“从而”、“以”、“却”之类的副词或介词。

●消除噪声：搜索引擎需要识别并消除噪声，排名时不使用噪声内容，基本方法是根据

HTML标签对页面分块，区分出页头、正文、页脚、广告等区域，在网站上大量重复出现

的区块往往属于噪声，对页面消噪后剩下的才是页面的主体内容。

●去重：同一篇文章经常重复出现在不同网站及同一个网站的不同网址上，搜索引擎并

不喜欢则好重啊个重复性的内容，搜索引擎希望只返回相容文章的一篇，所以在惊醒索引

前还需要识别和删除重复内容，这个过程就成为“去重”。

●正向索引：搜索引擎索引程序将页面及关键字形成词表结构存储进索引库，每个文件

都对应一个文件ID，文件内容被表示为一串关键词的组合。实际上在搜索引擎索引库中，

关键词也已经转换成为关键词ID，这样的数据结构就称为正向索引。

●倒排索引：搜索引擎将正向索引数据库重新构造为倒排索引，把文件对应到关键词的

映射转换为关键词到文件的映射。

●链接关系计算：主要体现就是Google的PR值，搜狗的SR值等

●特殊文件处理：搜索引擎有时也会抓取除HTML文件以外的文件，如：PDF、Word、

WPS、XLS、PPT、TXT文件等

三、排名

●搜索词处理：★中文分词，★去停止词，★指令处理（及分词后的关键词逻辑关系，

通常是“与”逻辑），★拼写错误矫正，★整合搜索触发（某些搜索词回触发整合搜索，如

明星姓名经常会触发图片和视频内容）。

●文件匹配：搜索词经过处理后，搜索引擎得到的是以词为基础的关键词集合，文件匹

配阶段就是找出含有所有关键词的文件。

本文标签：页面搜索引擎蜘蛛文件

版权声明：本文标题：搜索引擎的工作原理大致可以分为三个阶段内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1711769986a326606.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

Win11 Excel文件变成白板图标怎么解决？

11小时前

Win11 excel文件图标变成白板怎么解决？有一些朋友发现自己的Excel文件变成了白板，无法双击直接打开，这是因为文件格式关联出现了问题，也就是x

移动硬盘接入mac无法复制文件进去怎么办，mac里的文件如何存进移动硬盘

6小时前

如果要传输的文件数据量比较大，相比于使用U盘，移动硬盘是更多的选择。移动硬盘可存储量大、传输速度快，是实用性比较强的储存设备。不仅是Windows设备，

移动硬盘无法访问“文件或目录损坏且无法读取”，怎样才能修复？

6小时前

问题描述移动硬盘出现 “文件或目录损坏且无法读取” 的问题起因在未安全退出的情况下，直接插拔解决方案 W10操作系统在CMD命令行下是有U盘修复命令的，执行&#xff1a

计算机D盘无法读取,D盘目录或文件被损坏且无法读取的愿意以及解决办法

6小时前

在硬盘上出现"文件或目录损坏且无法读取"问题,首先不要想到格式化那个分区,因为代价太高,并且要备份文件,太麻烦了. 故障现象不管是移动硬盘还是优盘，包括本地电脑上的硬盘分区，

移动硬盘文件或目录损坏且无法读取，这样做就对了！

6小时前

案例：移动硬盘文件或目录损坏且无法读取怎么办【我的移动硬盘插入电脑后突然就显示文件损坏，遇到这种情况我应该怎么处理呀？感谢回答！】移动硬盘是一种

计算机D盘无法读取,D盘目录或文件已损坏，无法读取解决方案

6小时前

通过FireWire修复CF文件损坏的工具立即下载硬盘上出现“文件或目录损坏且无法读取”的问题. 首先，不要考虑格式化该分区，因为成本太高，并且备份文件也很麻烦. 故障现象无论是移动硬盘还是USB闪存驱动器，包括本地计算机上的硬盘分区

解决“错误0x80071ac3”文件无法写入移动硬盘

6小时前

问题： win7 移动硬盘可以读取，无法写入；右键菜单无新建，无删除；Delete失效；电脑文件无法拷贝进来

ntfs硬盘如何在mac上读写移动硬盘文件?

6小时前

在日常的工作中，总是避免不了跨平台的传输文件、文件共享等，例如一些用户使用Mac电脑修图或者剪辑视频之后需要拷贝到Windows电脑上查看。对于需要同时使用Mac和Windows的用户来说&

mac电脑里的文件如何复制到移动硬盘里面教程

6小时前

相信很多Mac用户都遇到过Mac里的文件无法复制到移动硬盘的情况，可能是因为Mac的系统文件格式和Windows是不兼容造成的，其次还有可能是因为复制的文件超过了4GB，恰巧

移动硬盘文件或目录损坏且无法读取？分享恢复数据的方法

6小时前

案例：移动硬盘提示无法访问，文件或目录损坏且无法读取？ “这个移动硬盘两年没用了，今天拿出来找文件，插上电脑后移动硬盘打不开&a

移动硬盘不能建立新文件、还有删除文件

6小时前

自己的固态硬盘，能正常读取文件，但是发现无法新建文件与删除文件了。点击windows开始按钮，运行栏中输入命令cmd，使用管理员打开cmd.exe程

mac无法向移动硬盘拷贝文件怎么解决？不能读取移动硬盘文件怎么解决

6小时前

有时候我们在使用mac的时候，会遇到一些问题，比如无法向移动硬盘拷贝文件或者不能读取移动硬盘文件。这些问题会给我们的工作和生活带来不便，所以我们需要找到原因和解决办法。本文将

计算机调整分区出现无法读取文件提示,电脑从硬盘分区往其他分区复制文件的时候提示“一个意外错误使你无法复制该文件……”...

6小时前

电脑从硬盘分区往其他分区复制文件的时候提示“一个意外错误使你无法复制该文件……”是什么问题呢，复制不了文件小编上次碰到的是硬盘坏了哦，今天我们来看看吧。故障现象: 从硬盘分区往其他分区复制文件的

文件或目录损坏,详细教您文件或目录损坏且无法读取怎么办

6小时前

移动硬盘内存空间大，便于储存文件，移动硬盘功能很多。文件或目录损坏,详细教您文件或目录损坏且无法读取怎么办怎么办？遇到这样的问题，我们应该怎么去解决它好

无法访问 F:。文件或目录损坏且无法读取。

6小时前

问题描述笔者这块西数的移动硬盘最近真的是问题频发，前段时间无法删除损坏的回收站，这两天在家里电脑上插上之后，双击 F 盘提示已损坏，较之以前问题更甚

MateBook D 14 2020款锐龙版 R5R7 集显(NblL-WFQ9)原厂Win10系统文件安装包下载

5小时前

HUAWEI华为MateBook D 14锐龙处理器NblL-WFQ9原装出厂Windows10系统，恢复开箱状态预装OEM系统适用型号：NblL-WXX9、NblL-WFQ9、NblL-WF

win7计算机桌面文件位置更改,Win7小技巧：更改用户文件夹位置方法汇总

5小时前

Win7之家( www.win7china)：Win7小技巧：更改用户文件夹位置方法汇总相信很多人都在感慨“C盘空间怎么越来越小”，作为系统盘，其实很

SACD ISO镜像中提取DSDIFF(DFF)、DSF文件

3小时前

听语音|浏览：5620|更新：2015-08-25 11:46|标签：硬件 1 2 3

2013年搜索引擎提交入口

1小时前

2019独角兽企业重金招聘Python工程师标准>>> 删除很多不可用的的地址，添加申诉地址。 360搜索引擎登录入口：http:info.so.360site

手写chatGPT——fetch解析textevent-stream会话流并逐字回显到页面——js技能提升

1小时前

直接上效果图：页面分上下两部分，上面是会话界面，底部是提交框。直接上代码： 解决步骤1：引入vueelementUi &

电子爱好者 - 最新技术资讯及电子产品介绍！

搜索引擎的工作原理大致可以分为三个阶段

更多相关文章

Win11 Excel文件变成白板图标怎么解决？

移动硬盘接入mac无法复制文件进去怎么办，mac里的文件如何存进移动硬盘

移动硬盘无法访问“文件或目录损坏且无法读取”，怎样才能修复？

计算机D盘无法读取,D盘目录或文件被损坏且无法读取的愿意以及解决办法

移动硬盘文件或目录损坏且无法读取，这样做就对了！

计算机D盘无法读取,D盘目录或文件已损坏，无法读取解决方案

解决“错误0x80071ac3”文件无法写入移动硬盘

ntfs硬盘如何在mac上读写移动硬盘文件?

mac电脑里的文件如何复制到移动硬盘里面教程

移动硬盘文件或目录损坏且无法读取？分享恢复数据的方法

移动硬盘不能建立新文件、还有删除文件

mac无法向移动硬盘拷贝文件怎么解决？不能读取移动硬盘文件怎么解决

计算机调整分区出现无法读取文件提示,电脑从硬盘分区往其他分区复制文件的时候提示“一个意外错误使你无法复制该文件……”...

文件或目录损坏,详细教您文件或目录损坏且无法读取怎么办

无法访问 F:。文件或目录损坏且无法读取。

MateBook D 14 2020款 锐龙版 R5R7 集显(NblL-WFQ9)原厂Win10系统文件安装包下载

win7计算机桌面文件位置更改,Win7小技巧：更改用户文件夹位置方法汇总

SACD ISO镜像中提取DSDIFF(DFF)、DSF文件

2013年搜索引擎提交入口

手写chatGPT——fetch解析textevent-stream会话流并逐字回显到页面——js技能提升

发表评论

推荐文章

浏览器之间的斗争梗，笑死 skr

winscp如何连接安卓手机_通过winscp连接路由器

中大东校小米路由器mini实现inode上网，ipv6 wifi【中大】【东校】【inode】【ipv6】...

Mac移动硬盘直接拔掉后，再插上无法显示的解决办法

HP惠普暗影精灵9Plus 17-CK2000系列 Windows11家庭中文版 原厂oem系统

热门文章

为什么qq没有位置服务器,腾讯QQ内测扩列功能上线 2019QQ扩列为什么找不到

【UTMB】如何查看 UTMB 个人积分 | 个人表现分 | 对比ITRA与UTMB表现分

win10无法调节亮度(向日葵)[已解决]

让Chrome浏览器下载而非打开文件

TL-WAR1200L，TP-LINK企业级路由器远程开机设置，手机开启windows电脑操作方法

联想微型计算机 wifi,联想(Lenovo)路由器无线wifi设置方法图解

路由器安全

华硕重装后进入bios_华硕电脑如何进入bios,教您如何华硕进入bios

ubuntu-20.04.3-live-server-amd64.iso安装全过程

现代模型论之基础

最新文章

现在各行各业的人们越来越多地依靠计算机来解决各种难题.翻译英语,公共英语PETS三级阅读与翻译试题训练 四...

英语口语8000句，英语口语mp3,英语听力，一句英语一句翻译，一句英语一句汉语。英语单词 英语翻译 英语跟读 初中英语单词 单词+翻译mp3 单词 音频 mp3 俞敏洪 专四词汇词根 初中英语

寻求英译汉校对人员启事

union翻译成中文_union是什么意思_union中文意思_union英译汉_英汉词典

2022年6月大学英语六级翻译

再也不用发愁文献翻译了（完全免费）

腾讯AI开放平台使用尝试：通过文本翻译API进行汉译英

考研英语一阅读真题逐词翻译（2010-2023）共211页

学术英语理工（第二版）Unit1课文翻译

大一上：英语复习：英译汉（新视野大学英语读写教程1：第一、三、四、六单元分句+注释）

微信翻译如何使用？在微信中如何进行中翻译英

英语论文文献翻译小窍门

基于Transformer的翻译模型（英-＞中）

简单关键字中英文翻译机代码~

大学英语精读第三版（第六册）学习笔记（原文及全文翻译）——1A - Street Trees（街树）

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

MateBook D 14 2020款锐龙版 R5R7 集显(NblL-WFQ9)原厂Win10系统文件安装包下载

HP惠普暗影精灵9Plus 17-CK2000系列 Windows11家庭中文版原厂oem系统

现在各行各业的人们越来越多地依靠计算机来解决各种难题.翻译英语,公共英语PETS三级阅读与翻译试题训练四...

英语口语8000句，英语口语mp3,英语听力，一句英语一句翻译，一句英语一句汉语。英语单词英语翻译英语跟读初中英语单词单词+翻译mp3 单词音频 mp3 俞敏洪专四词汇词根初中英语

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载