admin管理员组

文章数量:1530061

搜索引擎原理第一阶段之爬行和抓取


文章目录

  • 搜索引擎原理第一阶段之爬行和抓取
  • 前言
  • 一、蜘蛛
  • 二、跟踪链接
  • 三、吸引蜘蛛
  • 四、地址库
  • 五、文件存储
  • 六、爬行时的复制内容检测


前言

搜索引擎工作过程非常复杂,接下来的我用三篇文章简单介绍搜索引擎是怎样实现网页排名的。这里介绍的内容相对于真正的搜索引擎技术来说只是皮毛。不过对大部分SEO人员已经够用了。

搜索引擎的工作过程大体上可以分成三个阶段。

(1)爬行和抓取:搜索引擎蜘蛛通过跟踪搂发现和访问网页,读取页面HTML代码,存入数据库。

(2)预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引、倒排索引等处理,以备排名程序调用。

(3)排名:用户输入查询词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。


爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。

本文标签: 原理搜索引擎