360搜索的百亿级网页搜索引擎架构实现|电子爱好者

admin管理员组
文章数量:1578022

奇技指南

360搜索是360的重要产品，目前拥有上万台服务器，每日抓取网页数量高达十亿，引擎索引的优质网页数量超过数百亿。

本文就来为大家介绍一下，如此强大的搜索引擎是如何设计的，涉及了哪些关键技术点。

360搜索概况

目前360搜索每日抓取的网页数量高达十亿，已经收录的网页基本上是万亿级别的网页集合，实际可检索的网页是在一个百亿级别的网页集合里。

目前360搜索的单日流量是亿级pv。我们目前的在线、离线机群有几万台服务器来维护这么大量级的计算。

主要内容

我今天的分享的主要会侧重于百亿级网站搜索引擎架构的一些核心模块的理论设计。本次分享内容分为以下四个模块：

如何设计搜索引擎
百亿级网页计算关键技术
网页索引组织模式
网页检索和相关性

01、如何设计搜索引擎

首先从如何设计一个搜索引擎讲起。

基础检索

一个用户请求过来之后，整个搜索引擎的工作流程大致如下：

首先用切词组件做分词，把query分成多个word，然后多个word会从我们的倒排索引里面获取倒排拉链，在倒排拉链的基础上，会做求交计算来拿到所有命中的doc list。拿到doc list之后，我们希望能够把优质的网页反馈给用户，这时候我们还需要做rank计算。rank计算就是拿倒排里面的一些位置索引信息，包括在正排里面拿一些rank的属性特征信息做打分，最终会把分数比较高的Top N结果反馈用户。当然在前端web页面展示的时候，需要从正排中提取摘要信息，展示给用户。这就是整个的检索过程。

基础索引

整个检索过程涉及到两个库。第一个是正排索引，另一个是倒排索引，我这里针对这两个库给大家做一个简单的介绍。

什么是正排索引？我们从互联网上抓取的网页包含很多信息，包括网页头信息、标题、正文、标签等。我们首先从网页中把文章的正文以及文章相关的特征提取出来，当然也输入一些挖掘的信息，然后做一些分词处理。这个过程，我们是把整个的网页生成了两部分数据，第一部分就是属性，所谓属性就是针对这些网站的一些特征，比如说网站分类信息、网站rank相关信息等。第二个是针对的正文的分词的结果。

整个的正排索引，就是以doc为key，以属性和word列表为value的一种结构。因为用户在检索时是以word为key来做检索的，我们希望能够把正排索引转化成一种结构，来适应用户的检索，所以我们把正排索引转化成了以word为key，以doclist为value的一种结构，这个结构能够给用户提供高效的检索。这就是我们所谓的倒排索引。

检索模型

上面简单地介绍了搜索引擎的工作过程及基本概念，那下面我们讲一下，站在用户检索的角度来说，如何来设计一个搜索引擎，它的检索模型是什么样的？

1、query分析

首先要做的就是针对用户输入的query进行query分析。query分析基本包涵三点：确定检索的粒度、Term属性分析、Query需求分析。

确定检索的粒度

所谓确定检索粒度，就是分词的粒度。我们会提供标准的分词，以及短语、组合词。针对不同的分词粒度返回的网页集合是不一样的。标准分词粒度越小，返回的结果越多，从中拿到优质结果的能力就越低。而短语和组合词本身就是一个精准的检索组合，相对的拿到的网页集合的质量就会高一些。

Term属性分析

这一块主要是涉及到两个点。

第一个点就是query中每一个词的term weight（权重）。权重是用来做什么的？每一个用户的query它本身都有侧重点。举个例子，比如“北京长城”这个query，用户输入这个词搜索的时候其实他想搜的是长城&

本文标签：架构搜索引擎网页

版权声明：本文标题：360搜索的百亿级网页搜索引擎架构实现内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1727830631a1132566.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

360搜索的百亿级网页搜索引擎架构实现

360搜索概况

主要内容

01、如何设计搜索引擎

基础检索

基础索引

检索模型

1、query分析

更多相关文章

详细分析推荐系统和搜索引擎的差异陈运文

善于使用搜索引擎、百度网盘、华为网盘、新浪微盘找资源的方法总结

搜索引擎索引的简单介绍

网络安全工程师教你：Shadon网络空间搜索引擎使用教程

360搜索的百亿级网页搜索引擎架构实现

如何更好地使用搜索引擎

Google和百度都无法替代的10大深网搜索引擎

Web搜索引擎工作原理和体系结构

这就是搜索引擎（三）——搜索引擎优化

搜索引擎命令大全！

注意：网站中出现以下违规内容-搜索引擎百度都不收录

除了谷歌和百度，你还可以尝试这 8 个专用搜索引擎

网络爬虫结合搜索引擎

除了百度、搜狗搜索你还知道哪些好用的搜索引擎吗？

关于信息检索（IR）、搜索引擎的学与思

搜索引擎面临的挑战及应对措施

创建一个图片搜索引擎的完整指南

【搜索引擎】强推！最好用资源最全的十个百度网盘搜索引擎

最全的全球搜索引擎的介绍

如何避免搜索引擎爬虫产生的流量过大

发表评论

推荐文章

值得收藏！修复Windows 1011中找不到输出或输入设备的五种方法

openmv ide 2.6.5下载

如何转换音频格式mp3，可以免费音频格式转换的软件

1003 Emergency (25 分) java

win10家庭版安装Hyper-v

热门文章

详解区块链（很详很长）

怎么设置linux系统定时关机,Linux系统定时关机

Eureka报错“EMERGENCY! EUREKA MAY BE INCORRECTLY CLAIMING INSTANCES ARE UP WHEN THEY'RE NOT. RENEWALS ”

Win10家庭版无法远程桌面怎么办？

记在win10家庭版下没有管理员身份，文件更改后无法保存的方法（不需要安装专业版）

收藏几个百度网盘搜索资源引擎

搜索引擎语法

迅雷【任务配置文件错误，无法继续下载】解决方法

为什么建议大家使用 Linux 开发？爽 ！！！

谷歌浏览器使用迅雷下载资源

最新文章

vncapp下载，vncapp下载怎么下载？下载教程

AI换脸Roop-Unleashed，一键整合包教程

装系统cmd 所需命令

gradle各版本下载、高速下载小技巧

b站学习视频python_python脚本处理下载的b站学习视频

解决宝塔面板无法下载软件和更新应用的问题

在安卓手机上安装完整LINUX系统

Ubuntu 配置与简单优化(未完)

分享一些自用软件，学妹们用了都说好用！

Linux开发

【2025】springboot家装一体化服务平台背景（源码+文档+调试+答疑）

如何解决Windows 7中DLL文件缺失导致的文件无法打开问题？恢复系统正常运行的步骤

wps 2019智能填充

搬砖工具

袋鼠下载IOS用的一款不限速下载工具支持极速下载，在线秒播

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

为什么建议大家使用 Linux 开发？爽！！！

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载