admin管理员组

文章数量:1560458

搜索引擎原理第二阶段之预处理


文章目录

  • 搜索引擎原理第二阶段之预处理
  • 前言
  • 一、提取文字
  • 二、中文分词
  • 三、去停止词
  • 四、消除噪声
  • 五、去重
  • 六、正向索引
  • 七、倒排索引
  • 八、链接关系计算
  • 九、特殊文件处理
  • 十、质量判断


前言

搜索引擎工作过程非常复杂,接下来的我用三篇文章简单介绍搜索引擎是怎样实现网页排名的。这里介绍的内容相对于真正的搜索引擎技术来说只是皮毛。不过对大部分SEO人员已经够用了。

搜索引擎的工作过程大体上可以分成三个阶段。

(1)爬行和抓取:搜索引擎蜘蛛通过跟踪搂发现和访问网页,读取页面HTML代码,存入数据库。

(2)预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引、倒排索引等处理,以备排名程序调用。

(3)排名:用户输入查询词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。


本篇文章主要介绍预处理

在一些SEO材料中,“预处理”也被简称为“索引”,因为索

本文标签: 原理搜索引擎