ElasticSearch(全文检索服务的安装和使用)|电子爱好者

admin管理员组
文章数量:1530960

一、ElasticSearch介绍

1.1 为什么要用ElasticSearch？

1.2 ElasticSearch介绍

1.3 原理与应用

1.3.1.索引结构

1.3.2.倒排索引

1.4 ELK是什么？

1.5 ES特点及优势

二、安装 ElasticSearch

2.1 环境需求

2.2 安装ES

2.2.1 下载

2.2.2.设置虚拟机内存

2.2.3 创建用户

2.2.4 安装

2.2.5 ES目录结构

2.3 配置文件

2.3.1 elasticsearch.yml

2.3.2 jvm.options

2.3.3 log4j2.properties

2.4 启动ES

2.4.1.启动和关闭

2.4.2.解决内核问题编辑

2.4.3.解决文件创建权限问题

2.4.4.解决线程开启限制问题

2.4.5.解决虚拟内存问题

2.5.测试

三、安装Kibana

3.1 什么是Kibana

3.2 下载

3.3 安装

3.4 修改配置

3.5 启动

3.6 测试

四、安装head

4.1.什么是head

4.2.安装

4.3.测试

五、ES快速入门

5.1.index管理

5.1.1.创建index

5.1.2.修改index

5.1.3.删除index

5.2.mapping管理

5.2.1 创建mapping

5.2.2.查询mapping

5.2.3.更新mapping

5.2.4.删除mapping

5.3.document管理

5.3.1.创建document

5.3.2.查询document

5.3.3.删除Document

5.4.ES读写过程

5.4.1.documnet routing（数据路由）

5.4.4.为什么primary shard数量不可变？

5.5.luke查看ES的逻辑结构

六、IK分词器

6.1.测试分词器

6.2.中文分词器

6.2.1.Lucene自带中文分词器

6.2.2.第三方中文分析器

6.3.安装IK分词器

6.4.两种分词模式

6.5.自定义词库

七、field(域，字段)详细介绍

7.1.字段的属性介绍

7.1.1.type数据类型：

7.1.2.analyzer指定分词模式：

7.1.3.index：

7.1.4.source：

7.2.常用field类型

7.3.field属性的设置标准

八、Spring Boot整合ElasticSearch

8.1.ES客户端

8.2.搭建工程

8.2.1.pom.xml

8.2.2.application.yml

8.2.3.app

8.3.索引管理

8.3.1.创建索引库

8.3.2.删除索引库

8.3.2.添加文档

8.3.3.批量添加文档

8.3.4.修改文档

8.3.5.删除文档

8.4.文档搜索

8.4.1.准备环境

8.4.2.简单搜索

8.4.3.DSL搜索

8.4.3.1.match_all查询

8.3.3.2.分页查询

8.3.3.4.match查询

8.3.3.5.multi_match查询

8.3.3.6.bool查询

8.3.3.7.filter查询

8.3.3.8.highlight查询

九、集群管理

9.2.创建结点2

9.3.查看集群健康状态

9.4.测试

一、ElasticSearch介绍

1.1 为什么要用ElasticSearch？

当我们访问购物网站的时候，我们可以根据我们随意所想的内容输入关键字就可以查询出相关的内容，这是怎么做到呢？这些随意的数据不可能是根据数据库的字段查询的，那是怎么查询出来的呢，为什么千奇百怪的关键字都可以查询出来呢？

答案就是全文检索服务，ElasticSearch是一个基于Lucene的全文检索服务器，而lucene采用了词元匹配方案。举个例子：北京天安门----Lucene切分词：北京天安门等等这些词元，当我们搜索的时候这些词元都可以检索到北京天安门。

1.2 ElasticSearch介绍

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个基于RESTful web接口的分布式全文搜索引擎。ElasticSearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。ElasticSearch用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。根据DB-Engines的排名显示，ElasticSearch是最受欢迎的企业搜索引擎，其次是Apache Solr（也是基Lucene）。

总结：

1、elasticsearch是一个基于Lucene的分布式全文检索服务器。

2、elasticsearch隐藏了Lucene的复杂性，对外提供Restful 接口来操作索引、搜索。

es和solr选择哪个？

1.如果你公司现在用的solr可以满足需求就不要换了。

2.如果你公司准备进行全文检索项目的开发，建议优先考虑elasticsearch，因为像Github这样大规模的搜索都在用它。

1.3 原理与应用

1.3.1.索引结构

下图是ElasticSearch的索引结构，右边黑蓝色色部分是原始文档，左边黄色部分是逻辑结构，逻辑结构也是为了更好的去描述ElasticSearch的工作原理及去使用物理结构中的索引文件。

1.3.2.倒排索引

倒排索引（Inverted index）:也常被称为反向索引，倒排索引是从关键字到文档的映射（已知关键字求文档）。

逻辑结构部分是一个倒排索引表，由三部分组成：

1、将搜索的文档最终以Document方式存储起来。

2、将要搜索的文档内容分词，所有不重复的词组成分词列表。

3、每个分词和docment都有关联。

如下：

现在，如果我们想搜索包含quick brown词条的文档：

两个文档都匹配，但是第一个文档比第二个匹配度更高。如果我们使用仅计算匹配词条数量的简单相似性算法，那么，我们可以说，对于我们查询的相关性来讲，第一个文档比第二个文档更佳。

1.4 ELK是什么？

ELK=elasticsearch+Logstash+kibana

elasticsearch：后台分布式存储以及全文检索
logstash: 日志加工、“搬运工”
kibana：数据可视化展示。

ELK架构为数据分布式存储、可视化查询和日志解析创建了一个功能强大的管理链。三者相互配合，取长补短，共同完成分布式大数据处理工作。

1.5 ES特点及优势

1）分布式实时文件存储，可将每一个字段存入索引，使其可以被检索到。
2）实时分析的分布式搜索引擎。
分布式：索引分拆成多个分片，每个分片可有零个或多个副本。集群中的每个数据节点都可承载一个或多个分片，并且协调和处理各种操作；
负载再平衡和路由在大多数情况下自动完成。
3）可以扩展到上百台服务器，处理PB级别的结构化或非结构化数据。也可以运行在单台PC上（已测试）
4）支持插件机制，分词插件、同步插件、Hadoop插件、可视化插件等。

二、安装 ElasticSearch

2.1 环境需求

1、jdk必须是jdk1.8.0_131以上版本。

2、ElasticSearch 需要至少4096 的线程池、65536个文件创建权限和 262144字节以上空间的虚拟内存才能正常启动，所以需要为虚拟机分配至少1.5G以上的内存

3、从5.0开始，ElasticSearch 安全级别提高了，不允许采用root帐号启动

4、Elasticsearch的插件要求至少centos的内核要3.5以上版本

2.2 安装ES

2.2.1 下载

ElasticSearch官网：免费且开放的搜索：Elasticsearch、ELK 和 Kibana 的开发者 | Elastic

2.2.2.设置虚拟机内存

2.2.3 创建用户

从5.0开始，ElasticSearch 安全级别提高了，不允许采用root帐号启动，所以我们要添加一个用户。

1.创建elk 用户组

groupadd elk

2.创建用户admin

useradd admin

passwd admin

3.将admin用户添加到elk组

usermod -G elk admin

5.为用户分配权限

#chown将指定文件的拥有者改为指定的用户或组 -R处理指定目录以及其子目录下的所有文件

chown -R admin:elk /usr/upload

chown -R admin:elk /usr/local

切换用户：

su admin

2.2.4 安装

ES是Java开发的应用，解压即安装：

tar -zxvf elasticsearch-6.2.3.tar.gz -C /usr/local

2.2.5 ES目录结构

bin 目录：可执行文件包
config 目录：配置相关目录
lib 目录：ES 需要依赖的 jar 包，ES 自开发的 jar 包
logs 目录：日志文件相关目录
modules 目录：功能模块的存放目录，如aggs、reindex、geoip、xpack、eval
plugins 目录：插件目录包，三方插件或自主开发插件
data 目录：在 ES 启动后，会自动创建的目录，内部保存 ES 运行过程中需要保存的数据。

2.3 配置文件

ES安装目录config中配置文件如下：

elasticsearch.yml：用于配置Elasticsearch运行参数

jvm.options：用于配置Elasticsearch JVM设置

log4j2.properties：用于配置Elasticsearch日志

2.3.1 elasticsearch.yml

本项目配置如下：

cluster.name: power_shop
node.name: power_shop_node_1
network.host: 0.0.0.0
http.port: 9200
transport.tcp.port: 9300
discovery.zen.ping.unicast.hosts: ["192.168.115.135:9300", "192.168.115.136:9300"]
path.data: /usr/local/elasticsearch-6.2.3/data
path.logs: /usr/local/elasticsearch-6.2.3/logs
http.cors.enabled: true
http.cors.allow-origin: /.*/

注意意path.data和path.logs路径配置正确。

常用的配置项如下：

cluster.name:
配置elasticsearch的集群名称，默认是elasticsearch。建议修改成一个有意义的名称。
node.name:
节点名，通常一台物理服务器就是一个节点，es会默认随机指定一个名字，建议指定一个有意义的名称，方便管理一个或多个节点组成一个cluster集群，集群是一个逻辑的概念，节点是物理概念，后边章节会详细介绍。
path.data:
设置索引数据的存储路径，默认是es_home下的data文件夹，可以设置多个存储路径，用逗号隔开。
path.logs:
设置日志文件的存储路径，默认是es_home下的logs文件夹
network.host:
设置绑定主机的ip地址，设置为0.0.0.0表示绑定任何ip，允许外网访问，生产环境建议设置为具体的ip。
http.port: 9200
设置对外服务的http端口，默认为9200。
transport.tcp.port: 9300
集群结点之间通信端口
discovery.zen.ping.unicast.hosts:[“host1:port”, “host2:port”, “…”]
设置集群中master节点的初始列表。
discovery.zen.ping.timeout: 3s
设置ES自动发现节点连接超时的时间，默认为3秒，如果网络延迟高可设置大些。
http.cors.enabled：
   是否支持跨域，默认为false
http.cors.allow-origin：
   当设置允许跨域，默认为*,表示支持所有域名

2.3.2 jvm.options

设置最小及最大的JVM堆内存大小：

在jvm.options中设置 -Xms和-Xmx：

1）两个值设置为相等

2）将Xmx 设置为不超过物理内存的一半。

默认内存占用太多了，我们调小一些：

-Xms512m
-Xmx512m

2.3.3 log4j2.properties

日志文件设置，ES使用log4j，注意日志级别的配置。

2.4 启动ES

2.4.1.启动和关闭

1、启动

./elasticsearch
#或
./elasticsearch -d

2、关闭

ps-ef|grep elasticsearch

kill -9 pid

2.4.2.解决内核问题

我们使用的是centos6，其linux内核版本为2.6。而Elasticsearch的插件要求至少3.5以上版本。不过没关系，我们禁用这个插件即可。

修改elasticsearch.yml文件，在最下面添加如下配置：

bootstrap.system_call_filter: false

2.4.3.解决文件创建权限问题

[1]: max file descriptors [4096] for elasticsearch process likely too low, increase to at least [65536]

Linux 默认来说，一般限制应用最多创建的文件是 4096个。但是 ES 至少需要 65536 的文件创建权限。我们用的是admin用户，而不是root，所以文件权限不足。

使用root用户修改配置文件:

vim /etc/security/limits.conf

追加下面的内容：

* soft nofile 65536
* hard nofile 65536

2.4.4.解决线程开启限制问题

[2]: max number of threads [3795] for user [es] is too low, increase to at least [4096]

默认的 Linux 限制 root 用户开启的进程可以开启任意数量的线程，其他用户开启的进程可以开启1024 个线程。必须修改限制数为4096+。因为 ES 至少需要 4096 的线程池预备。

如果虚拟机的内存是 1G，最多只能开启 3000+个线程数。至少为虚拟机分配 1.5G 以上的内存。

使用root用户修改配置：

vim /etc/security/limits.conf

追加：

* hard nproc 4096

2.4.5.解决虚拟内存问题

[3]: max virtual memory areas vm.max_map_count [65530] likely too low, increase to at least [262144]

ES 需要开辟一个 262144字节以上空间的虚拟内存。Linux 默认不允许任何用户和应用直接开辟虚拟内存。

vim /etc/sysctl.conf

追加下面内容：

vm.max_map_count=655360 #限制一个进程可以拥有的VMA(虚拟内存区域)的数量

然后执行命令，让sysctl.conf配置生效：

sysctl -p

2.5.测试

ES 中只要启动了任意一个 ES 应用就是启动了一个 ES的 cluster 集群。默认的 ES集群命名为 elasticsearch。如果启动了多个应用（可以在多个节点或单一节点上启动多个应用），默认的ES 会自动找集群做加入集群的过程。

浏览器访问：http://192.168.204.132:9200

返回结果如下：

{
"name" : "power_shop_node_1", # node name 结点名称。随机分配的结点名称
"cluster_name" : "power_shop", # cluster name 集群名称。默认的集群名称
"cluster_uuid" : "RqHaIiYjSoOyrTGq3ggCOA", # 集群唯一 ID
"version" : {
"number" : "6.2.3", #版本号
"build_hash" : "c59ff00",
"build_date" : "2018-03-13T10:06:29.741383Z",#发布日期
"build_snapshot" : false,#是否快照版本
"lucene_version" : "7.2.1",#lucene版本号
"minimum_wire_compatibility_version" : "5.6.0",
"minimum_index_compatibility_version" : "5.0.0"
},
"tagline" : "You Know, for Search"
}

三、安装Kibana

3.1 什么是Kibana

Kibana是ES提供的一个基于Node.js的管理控制台, 可以很容易实现高级的数据分析和可视化，以图标的形式展现出来。

kibana可以用来编辑请求语句的，方便学习操作es的语法。有时在进行编写程序，写到查询语句时，往往我会使用kibana进行书写，然后再粘贴到程序中。（不容易出错）

3.2 下载

ElasticSearch官网：免费且开放的搜索：Elasticsearch、ELK 和 Kibana 的开发者 | Elastic

3.3 安装

在window中安装Kibana很方便，解压即安装

3.4 修改配置

修改config/kibana.yml配置：

server.port: 5601
server.host: "0.0.0.0" #允许来自远程用户的连接
elasticsearch.url: http://192.168.116.135:9200 #Elasticsearch实例的URL

3.5 启动

./bin/kibana

3.6 测试

浏览器访问：http://127.0.0.1:5601

四、安装head

4.1.什么是head

head插件是ES的一个可视化管理插件，用来监视ES的状态，并通过head客户端和ES服务进行交互，比如创建映射、创建索引等。从ES6.0开始，head插件支持使得node.js运行。

4.2.安装

1、下载head

下载地址：https://github/mobz/elasticsearch-head

2、运行

npm run start

4.3.测试

http://127.0.0.1:9100浏览器访问： http://127.0.0.1:9100

五、ES快速入门

ES作为一个索引及搜索服务，对外提供丰富的REST接口，快速入门部分的实例使用kibana来测试，目的是对ES的使用方法及流程有个初步的认识。

5.1.index管理

5.1.1.创建index

索引库。包含若干相似结构的 Document 数据，相当于数据库的database。

语法：PUT /index_name

如：

PUT /java2202
{
"settings": {
"number_of_shards": 2,
"number_of_replicas": 1
}
}

number_of_shards - 表示一个索引库将拆分成多片分别存储不同的结点，提高了ES的处理能力

number_of_replicas - 是为每个 primary shard分配的replica shard数，提高了ES的可用性，如果只有一台机器，设置为0

效果：

5.1.2.修改index

注意：索引一旦创建，primary shard 数量不可变化，可以改变replica shard 数量。

语法：PUT /index_name/_settings

如：

PUT /java06/_settings

{

"number_of_replicas" : 1

}

ES 中对 shard 的分布是有要求的，有

本文标签：全文 Elasticsearch

版权声明：本文标题：ElasticSearch(全文检索服务的安装和使用) 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1725735094a1039631.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

ElasticSearch(全文检索服务的安装和使用)

一、ElasticSearch介绍

1.1 为什么要用ElasticSearch？

1.2 ElasticSearch介绍

1.3 原理与应用

1.3.1.索引结构

1.3.2.倒排索引

1.4 ELK是什么？

1.5 ES特点及优势

二、安装 ElasticSearch

2.1 环境需求

2.2 安装ES

2.2.1 下载

2.2.2.设置虚拟机内存

2.2.3 创建用户

2.2.4 安装

2.2.5 ES目录结构

2.3 配置文件

2.3.1 elasticsearch.yml

2.3.2 jvm.options

2.3.3 log4j2.properties

2.4 启动ES

2.4.1.启动和关闭

2.4.2.解决内核问题

2.4.3.解决文件创建权限问题

2.4.4.解决线程开启限制问题

2.4.5.解决虚拟内存问题

2.5.测试

三、安装Kibana

3.1 什么是Kibana

3.2 下载

3.3 安装

3.4 修改配置

3.5 启动

3.6 测试

四、安装head

4.1.什么是head

4.2.安装

4.3.测试

五、ES快速入门

5.1.index管理

5.1.1.创建index

5.1.2.修改index

更多相关文章

ElasticSearch-8.2.0-windows安装与配置

es - elasticsearch - aggs - bucket - significant_terms

es - elasticsearch - aggs - bucket - significant_text

elasticSearch Alternatively use a keyword field instead.

ElasticsearchException[Elasticsearch exception [type=illegal_argument_exception, reason=Fielddata is

elasticsearch查询错误

现代大学英语精读第二版（第六册）学习笔记（原文及全文翻译）——3 - What Is News?（新闻是什么？）

ELK日志分析平台-（1）elasticsearch

elasticsearch搜索分析引擎

ELK大数据日志分析平台--（1）elasticsearch介绍及部署

elasticsearch snapshots (快照和恢复)

Windows常用命令，想要看什么命令直接在全文“CTRL+F”检索（转）

16款开源的全文搜索引擎

elasticsearch 启动报错 exception during geoip databases update javax.net.ssl.SSLHandshakeException

关于Elasticsearch全文搜索引擎

sql server2019安装失败 显示Data Quality Servers、全文和语义提取搜索、数据库引擎服务、SQL Sever复制错误

Elasticsearch：什么是向量数据库？

elasticsearch搜索引擎设计方案

ElasticSearch分布式搜索引擎安装教程

大学英语精读第三版（第六册）学习笔记（原文及全文翻译）——5B - Isaac Newton（艾萨克·牛顿）

发表评论

推荐文章

AXIOS 请求被浏览器缓存

从一个路由器里面接出一条网线,连接到另一个路由器

多无线路由器有线串连接,使用同一个SSID号无缝连接漫游(非中继方式)

【AMD平台下DPDK的使用--以dpdk-19.11.10为例】

lopatkin俄大神精简系统Windows 10 Pro 18362.10006 19H2 PreRelease x86-x64 ZH-CN MICRO

热门文章

UOS使用技能：修复无法引导WIN7的步骤！

ChatGPT如何改变生活、工作和兴趣

AI写代码修Bug画画写诗，ChatGPT&amp;DALLE2试用攻略

【ArcGIS Pro微课1000例】0001：Win7系统ArcGIS Pro2.5安装权威教程（附软件安装包下载）

DELL笔记本不能安装Win7系统【预装Windows8的】型号：Inspiron 13z 5323-百度一下当涂学电脑

[转] 【卡饭首发】卡巴斯基2016年Q1威胁演化报告

此主机支持 AMD-V，但 AMD-V 处于禁用状态。 如果已在 BIOS固件设置中禁用 AMD-V，或主机自更改此设置后从未重新启动，则 AMD-V 可能被禁用。 (1) 确认 BIOS固

sql server2019安装失败显示Data Quality Servers、全文和语义提取搜索、数据库引擎服务、SQL Sever复制错误

AI写代码修Bug画画写诗，ChatGPT&DALLE2试用攻略

此主机支持 AMD-V，但 AMD-V 处于禁用状态。如果已在 BIOS固件设置中禁用 AMD-V，或主机自更改此设置后从未重新启动，则 AMD-V 可能被禁用。 (1) 确认 BIOS固

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载