【造轮子】从零开始搭建一个搜索引擎，数据结构和架构实现|电子爱好者

admin管理员组
文章数量:1530085

文章目录

- - 1 前端 & 用户界面
  - 2 服务层 & 功能实现
  - 3 数据层 & 考虑持久化

1 前端 & 用户界面

最终效果

参考Baidu & Google的界面

关于功能

需要实现的内容有 （4）
搜索框+结果列表+关键词推荐+页面跳转
关键词直接调用专属API返回的JSON
结果列表和页面跳转，考虑在调用API中引入参数第x页，返回1~20条，21~40条的内容。
不理解的功能？
支持纯文本信息的存储？ 存储什么信息呢，是否是用户检索了xx信息，点击了yyy页面后，更新yyy页面的权重？

数据接口层，需要提供的API

返回搜索结果（搜索xxx，第x页，不含xxx关键词）（占比：60%）
返回相关搜索列表（当前关键词）（占比：20%）
信息存储（增加索引？删除索引？）
在线分词（测试用）

参考文献

参考开发框架
Vue
参考资料：
https://segmentfault/a/1190000039318492
https://gitee/turbo30/hcvue
https://github/xujingguo58/tinySearchEngine
https://github/chenhongyun/search_vue

2 服务层 & 功能实现

序，衡量指标

搜索性能 & 结果关联度 （占比：10%）
在数据结构上进行改良和优化
项目文件结构 & 代码风格 （占比：10%）
google code style 一下

1、将句子分词为关键词

参考jieba的原理与使用
https://blog.csdn/qq_33957603/article/details/124640588
TF-IDF
TF：某个词在句子中出现的次数 / 句子总词数 （感觉毫无意义，谁搜索一样的词啊）
IDF：log(语料库中的句子总数 / 包含该词语的句子数)， 这个有用
具体的使用来说，如果包含该词语的句子数越多，那么该词语的权重就下降，因为更通用。
类似于我，你，他，几乎是个句子都会包含。
将词语按照IDF降序排序，即如果包含这个词的句子越少，那么这个词语就更重要，因为他很可能是专有名词。
考虑语料库的建立，如何索引出包含该词语的文章数量。
词语1，xxx篇包含，词语2，xxx篇包含，快速排序？

2、对于每个词，倒排索引出对应的文章

考虑倒排索引（word->docx）

3、考虑对索引本身和索引出的文章进行排序

能否对每个词的倒排索引进行排序？（因为可能包含非常多的文章）
word1： docx1，docx2，docx3，docx4。
考虑采用平衡树来维护，维护文章id，维护索引的排序因子采用文章的TF（TF越高，说明该词在该文章中越重要），类似于map，插入和查找都是logn。
然后进行取交集操作（可能只取出一部分）
取出word1，word2，word3，word4对应的docx，进行取交集。
假设得到docx1，docx5，docx7，那么都是同时包含word1~4且含量较高的docx。
我们按照IDF作为第一关键词，TF作为第2关键词，对所有docx进行排序（索引结构维护）？
现在我们得到了排好序的docx
假设为docx5，docx7，docx1。
然后返回给前端即可。
参考资料：
https://developer.aliyun/article/765914
https://github/newpanjing/gofound/blob/main/docs/api.md

4+、考虑第x页的实现

功能实现
在排序文章中，加入第1~10条记录（一般搜索1页10条）。
考虑海量数据的分页，是否要对索引结构进行修改？ 尽量不要去修改索引结构，不然维护难度就太大了。
这个暂时不太会
参考资料
提问：http://www.itpub/thread-570676-1-1.html
分页查询原理：https://wwwblogs/caoweixiong/p/11937517.html
ES分页：https://www.modb.pro/db/61574

5+、考虑禁止词的实现

拿到之后再做一次暴力筛选，不用修改索引结构
比如本来请求1~10，现在我们请求1~30条记录，然后暴力统计每篇文章中是否包含禁止词（考虑建立正排索引？docx->word），如果包含禁止词就不做显示，数量不够再去请求。
参考资料
精准搜索：https://cloud.tencent/developer/article/1622850
精准词：https://juejin/post/6844903861493170189
屏蔽：https://m.fx361/news/2017/0918/2276672.html

6+、考虑相关性推荐

使用前缀树进行实现
额外建一棵树？（这样就不用修改索引结构了） 只含关键词的，与排名无关？
对所有的关键词，进行前缀匹配和推荐即可。
https://cloud.tencent/developer/article/1145300
参考资料
推荐搜索（还是这篇文章）：https://developer.aliyun/article/765914
相关搜索：https://segmentfault/a/1190000005754990
相关搜索2：https://singlecool/2017/07/29/RelevantSearch/

7+、考虑图片检索

对于文字搜图，直接文字搜文档，文档与图片一一对应即可
对于以图搜图，考虑如何把图片对应到文字，然后对文字进行分词，
分词后直接转化为搜索
考虑重新造一个数据集，把文字加到图片上，这样问题转化为文字识别？但是数据库要炸，所以不行。不可能直接检索数据库
所以这里需要做一个图像识别。可能会用到CNN卷积神经网络？要实现精准匹配、

3 数据层 & 考虑持久化

1、键值对数据库选用什么

参考资料：
leveldb介绍：https://wwwblogs/chenny7/p/4026447.html
参考的import模块：https://github/syndtr/goleveldb

2、第一次启动服务端程序

需要初始化的
链接数据库：维护id对docx文章，维护关键词word的倒排索引到id编号？能否实现log存取，能否对每个word的docx按照TF（某个词在句子中出现的次数 / 文章总词数）进行排序。
构造平衡树：对关键词按照按照IDF（即语料库中的句子总数 / 包含该词语的句子数）进行排序。
构造前缀树：实现关键词的相关搜索
参考资料：
悟空数据源：https://wukong-dataset.github.io/wukong-dataset/download.html

3、是否需要考虑数据持久化

哪些数据需要持久化？
搜索结果吗？好像不用
增加索引？ - > 增加什么索引呢？ -> 搜索记录吗？
是否需要增加新的数据词典，还是说只有支持预处理的数据集进行检索？
考虑数据词典
初始的数据集训练得到的语料库（关键词有重复，大小可以估算）
是否能支持加载新的语料库和进行一次训练，然后更新索引结构和数据库？

本文标签：数据结构轮子架构从零开始搜索引擎

版权声明：本文标题：【造轮子】从零开始搭建一个搜索引擎，数据结构和架构实现内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1726551793a1075083.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

搜索引擎选择：Elasticsearch与Solr

2天前

Solr vs. Elasticsearch Apache Solr Apache Solr基于业界大名鼎鼎的java开源搜索引擎Lucene，Lucene更多的是一个软件包，还不能称之为搜索引擎

如何让搜索引擎搜索到自己的个人博客网站（如何提交网站到各搜索引擎，如百度、必应Bing，以及提交页面URL的地址）

2天前

之前我写了很多关于 GitHub Pages 和 Jekyll 如何搭建个人博客的博客，但是我忘了这样别人是看不到的。一个网页能被别人看到的方式有几种： 点开分享的 URL&#xff1

搜索引擎solr和elasticsearch

2天前

刚开始接触搜索引擎，网上收集了一些资料，在这里整理了一下分享给大家。一、关于搜索引擎搜索引擎（Search Engine）是指根据一定的策略、运

9个基于Java的搜索引擎框架

2天前

搜索引擎，和数据库水平拆分、缓存、CDN一起，为大数据，高并发的web项目提供支撑 ! 转自：http:blog.csdnxiaomin1991

十大深网搜索引擎，它们提供了你无法从Google和Bing获取的信息

2天前

当我们想要搜索某些内容时，Google或Bing通常会是我们的第一选择。但我们知道，无论是Google还是Bing都不会提供在隐藏在暗网中的信息。作者：黑客视界来源&am

搜索引擎技术之概要预览

2天前

搜索引擎技术之概要预览前言近些天在学校静心复习功课与梳理思路（找工作的事情暂缓），趁闲暇之际，常看有关搜索引擎相关技术类的文章&#xff0c

MySQL内部搜索引擎

2天前

面试时突然被问到这个问题，非常懵，以前一直都没有注意过这个问题，今天整理一下什么是存储引擎关系数据表是用于存储和组织信息的数据结构，可以将表理解

新一代智能搜索引擎，让搜索一击即中

2天前

什么是搜索？ 搜索引擎的英文为search engine。搜索引擎是一个对互联网信息资源进行搜索整理和分类，并储存在专属网络数据库中供用户查询的系统，包括信息搜集、信息分类

使用 Redis 构建轻量的向量数据库应用：图片搜索引擎（二）

2天前

本篇文章我们来继续聊聊轻量的向量数据库方案：Redis，如何完成整个图片搜索引擎功能。写在前面在上一篇文章《使用 Redis 构建轻量的向量数据库应用：图片搜索引擎&

owllook在线小说搜索引擎使用指南

2天前

owllook是一个在线小说搜索引擎，其目的是让阅读更简单、优雅，让每位读者都有舒适的阅读体验 owllook是我大学时期编写的一个Python开源项目，至今维护将近两年了&

ElasticSearch分布式搜索引擎安装教程

2天前

ElasticSearch分布式搜索引擎安装教程专注小Du博客，每天分享干货知识。原文地址：http:dushunchang.topblog72 在正式开始安装教程之前&

WIN8 与WIN7的64位及32位分别对Legacy BIOS+MBR和UEFI+GPT两种启动方式和分区架构下的安装可行性分析

2天前

微软系统、相关产品官方镜像下载：http:msdn.itellyou 关于MBR、GPT、ESP、MSR、EFI、UEFI和WIN8中SECURE BOOT的基础知识： 1.MBR

Nginx（3）web架构

2天前

LNMP架构概述什么是LNMP LNMP是一套技术的组合，LLinux、NNginx、M~MySQL、P~PHP LNMP架构是如何工作的首先Nginx服务是不能处理动态请求，那么当用户发

【一起学数据结构与算法分析】第六篇：第一章完整习题

1天前

关于第一章学习已经介绍完了。【一起学数据结构与算法分析】第一篇：取第K大数的两种方法比较【一起学数据结构与算法分析】第二篇：字谜游戏【一起学数据结构与算法分析】第三篇：递

数据结构与算法Python语言实现《Data Structures & Algorithms in Python》手写课后答案--第十章

1天前

第十章本章讲述哈希表，和跳跃表有一个难点是证明二次探测定理 The quadratic probing strategy has a clustering problem related to the way it looks fo

【读书笔记】【WebKit 技术内幕（一）】浏览器架构与浏览器内核；chromium、webkit和blink的渲染过程；chromium、webkit的架构与代码结构；webkit2架构

1天前

文章目录前言Something great第1章浏览器和浏览器内核浏览器用户代理和浏览器行为内核特征WebKit与blink 第2章 HTML网页和结构网页构成与结构WebKit的网页渲染过程第3章WebKit架构和模块WebKit架

AMD 芯片架构设计分析

1天前

一、CPU架构 AMD服务器级处理器演进：Zeppelin 参考链接：wikichip: Zeppelin 通过infinity fabric总线将单die分成多die的SoC架构&am

从零开始开发自己的chatgpt平台之 SSE（Server-Sent Events)客户端和服务端

1天前

提示：如果你认为本文对你有帮助，请点一下关注，后面会有更多人工智能方面的文章。文章目录前言一、SSE是什么？二、SSE服务端三、客户端四、SSE双向

商品详情页动态渲染系统：大型网站的多机房4级缓存架构设计

7小时前

124_大型电商网站的商品详情页的深入分析之前，咱们也是说在讲解这个商品详情页系统的架构缓存架构，高可用服务商品详情页系统，我们只是抽取了其中一部分来讲解&

算法数据结构（三十四）----根据对数器找规律&根据数据量猜解法&分治

6小时前

对数器找规律 1）某个面试题，输入参数类型简单，并且只有一个实际参数 2）要求的返回值类型也简单，并且只有一个 3&#xf

电子爱好者 - 最新技术资讯及电子产品介绍！

【造轮子】从零开始搭建一个搜索引擎，数据结构和架构实现

文章目录

1 前端 & 用户界面

2 服务层 & 功能实现

3 数据层 & 考虑持久化

更多相关文章

搜索引擎选择：Elasticsearch与Solr

如何让搜索引擎搜索到自己的个人博客网站（如何提交网站到各搜索引擎，如百度、必应Bing，以及提交页面URL的地址）

搜索引擎solr和elasticsearch

9个基于Java的搜索引擎框架

十大深网搜索引擎，它们提供了你无法从Google和Bing获取的信息

搜索引擎技术之概要预览

MySQL内部搜索引擎

新一代智能搜索引擎，让搜索一击即中

使用 Redis 构建轻量的向量数据库应用：图片搜索引擎（二）

owllook在线小说搜索引擎使用指南

ElasticSearch分布式搜索引擎安装教程

WIN8 与WIN7的64位及32位 分别对Legacy BIOS+MBR和UEFI+GPT两种启动方式和分区架构下的安装可行性分析

Nginx（3）web架构

【一起学数据结构与算法分析】第六篇：第一章完整习题

数据结构与算法Python语言实现《Data Structures &amp; Algorithms in Python》手写课后答案--第十章

【读书笔记】【WebKit 技术内 幕（一）】浏览器架构与浏览器内核；chromium、webkit和blink的渲染过程；chromium、webkit的架构与代码结构；webkit2架构

AMD 芯片架构设计分析

从零开始开发自己的chatgpt平台 之 SSE（Server-Sent Events)客户端和服务端

商品详情页动态渲染系统：大型网站的多机房4级缓存架构设计

算法数据结构（三十四）----根据对数器找规律&amp;根据数据量猜解法&amp;分治

发表评论

推荐文章

totolink服务器未响应,TOTOLINK路由器192.168.0.1登录页面打不开解决方法

(RE)BUUCTF--[BJDCTF2020]BJD hamburger competition wp

Dell戴尔笔记本电脑灵越Inspiron 55025509原装出厂Windows10系统恢复原厂OEM系统

PHP面试大全 基础篇100道问题

暴风云视频平台点播SDK使用介绍（三）-- 视频播放（IOS）

热门文章

contact.sh：一款专门用于安全漏洞报告的公开资源情报工具

miui 10 android 9,MIUI10开发版8.12.13发布 基于Android 9.0 小米Max3已更新

android模拟器命令大全,玩转安卓模拟器命令行

SpringBoot中发送Email(基于QQ邮箱版的)

研究分析QQ木马的原理

error：重装系统后，office办公软件成网页版

Oracle相关知识点关键词

微软官方方式重装系统

FFmpeg开发(六)——Qt视频播放器之封装音频类(参考了暴风影音、迅雷影音)

又说暴风影音事件

最新文章

spring boot基于Springboot的球鞋调货管理系统设计与实现 毕业设计-附源码160942

【java毕业设计】基于java+SSH+jsp的酒水销售系统设计与实现（毕业论文+程序源码）——酒水销售系统

IntelliJ IDEA下载安装

idea系列之-2019.3版本新特性及安装一

2021.3.1idea(jdk+tomcat+maven)安装与配置

（附源码）Springboot网上购物系统 毕业设计 311236

集成开发工具（IDEA）安装与使用

c#物联网_C# 基础知识系列- 16 开发工具篇

Python环境搭建

PHP环境搭建

IntelliJ IDEA（Ultimate版本）的下载、安装和WordCount的初步使用（本地模式和集群模式）...

idea2021安装教程

MVC 洋酒销售系统的设计与实现java jsp 程序设计 课程设计 毕业设计-附源码02135

IntelliJ IDEA（2018.2.5版本）安装和破解

nextCloud集成至APP端可行性报告

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

WIN8 与WIN7的64位及32位分别对Legacy BIOS+MBR和UEFI+GPT两种启动方式和分区架构下的安装可行性分析

数据结构与算法Python语言实现《Data Structures & Algorithms in Python》手写课后答案--第十章

【读书笔记】【WebKit 技术内幕（一）】浏览器架构与浏览器内核；chromium、webkit和blink的渲染过程；chromium、webkit的架构与代码结构；webkit2架构

从零开始开发自己的chatgpt平台之 SSE（Server-Sent Events)客户端和服务端

算法数据结构（三十四）----根据对数器找规律&根据数据量猜解法&分治

PHP面试大全基础篇100道问题

miui 10 android 9,MIUI10开发版8.12.13发布基于Android 9.0 小米Max3已更新

spring boot基于Springboot的球鞋调货管理系统设计与实现毕业设计-附源码160942

（附源码）Springboot网上购物系统毕业设计 311236

MVC 洋酒销售系统的设计与实现java jsp 程序设计课程设计毕业设计-附源码02135

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载