Es Bucket聚合(桶聚合) Terms Aggregation与Significant Terms Aggregation|电子爱好者

admin管理员组
文章数量:1531411

本章将介绍elasticsearch最重要的桶聚合terms aggregation。

Terms Aggregation
多值聚合，根据库中的文档动态构建桶。基于词根的聚合，如果聚合字段是text的话，会对一个一个的词根进行聚合，通常不会在text类型的字段上使用聚合，对标关系型数据中的(Group By)。

官方示例如下：

1GET /_search
2{
3    "aggs" : {
4        "genres" : {
5            "terms" : { "field" : "genre" }
6        }
7    }
8}

返回结果如下：

 1{
 2    ...
 3    "aggregations" : {
 4        "genres" : {
 5            "doc_count_error_upper_bound": 0,           // @1
 6            "sum_other_doc_count": 0,                         // @2
 7            "buckets" : [                                                 // @3
 8                {
 9                    "key" : "electronic",
10                    "doc_count" : 6
11                },
12                {
13                    "key" : "rock",
14                    "doc_count" : 3
15                },
16                {
17                    "key" : "jazz",
18                    "doc_count" : 2
19                }
20            ]
21        }
22    }
23}

返回结果@1：该值表示未进入最终术语列表的术语的最大潜在文档计数，下文还会详细分析。
返回结果@2：当有很多词根时，Elasticsearch只返回最上面的项;这个数字是所有不属于响应的bucket的文档计数之和，其搜索过程在下文会讲到。
返回结果@3：返回的结果，默认情况下，返回doc_count排名最前的10个，受size参数的影响，下面会详细介绍。

Terms 聚合支持如下常用参数：
size
可以通过size返回top size的文档，该术语聚合针对顶层术语（不包含嵌套词根），其搜索过程是将请求向所有分片节点发送请求，每个分片节点返回size条数据，然后聚合所有分片的结果（会对各分片返回的同样词根的数数值进行相加），最终从中挑选size条记录返回给客户端。从这个过程也可以看出，其结果并不是准确的，而是一个近似值。

Shard Size
为了提高该聚合的精确度，可以通过shard_size参数设置协调节点向各个分片请求的词根个数，然后在协调节点进行聚合，最后只返回size个词根给到客户端，shard_size >= size，如果shard_size设置小于size，ES会自动将其设置为size，默认情况下shard_size建议设置为(1.5 * size + 10)。

Calculating Document Count Error
为了阐述返回结果中的doc_count_error_upper_bound、sum_other_doc_count代表什么意思，我们通过如下例子来说明Term Aggregations的工作机制。

根据这些返回的结果，在协调节点上聚合，最终得出如下响应结果：

 1{
 2    ...
 3    "aggregations" : {
 4        "products" : {
 5            "doc_count_error_upper_bound" : 46,
 6            "sum_other_doc_count" : 79,
 7            "buckets" : [
 8                {
 9                    "key" : "Product A",
10                    "doc_count" : 100
11                },
12                {
13                    "key" : "Product Z",
14                    "doc_count" : 52
15                }
16                {
17                    "key" : "Product C",
18                    "doc_count" : 50
19                }
20                {
21                    "key" : "Product G",
22                    "doc_count" : 45
23                }
24                ...
25            ]
26        }
27    }
28}

那doc_count_error_upper_bound、sum_other_doc_count又分别代表什么呢？

doc_count_error_upper_bound
该值表示未进入最终术语列表的术语的最大潜在文档计数。这是根据从每个碎片返回的上一项的文档计数之和计算的（协调节点根据每个分片节点返回的最后一条数据相加得来的）。这意味着在最坏的情况下，没有返回的词根的最大文档个数为46个，在此次聚合结果中排名第4。

sum_other_doc_count
未纳入本次聚合结果中的文档总数量，这个容易理解。

Per bucket Document Count Error
每个桶的错误文档数量，可以通过参数show_term_doc_count_error=true来展示每个文档未被纳入结果集的数量。

其使用示例如下：

1GET /_search
2{
3 “aggs” : {
4 “products” : {
5 “terms” : {
6 “field” : “product”,
7 “size” : 5,
8 “show_term_doc_count_error”: true
9 }
10 }
11 }
12}
对应的返回值：

1{
 2    ...
 3    "aggregations" : {
 4        "products" : {
 5            "doc_count_error_upper_bound" : 46,
 6            "sum_other_doc_count" : 79,
 7            "buckets" : [
 8                {
 9                    "key" : "Product A",
10                    "doc_count" : 100,
11                    "doc_count_error_upper_bound" : 0
12                },
13                {
14                    "key" : "Product Z&

本文标签： Bucket es terms significant aggregation

版权声明：本文标题：Es Bucket聚合(桶聚合) Terms Aggregation与Significant Terms Aggregation 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1725721227a1038395.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Es Bucket聚合(桶聚合) Terms Aggregation与Significant Terms Aggregation

更多相关文章

英语写作中“大量的”“重大的”“显著的”substantial、considerable、significant的用法

深入理解 significant terms 和 significant text 分组聚集

【ES】[ignore_throttled] parameter is deprecated because frozen indices have been deprecated. Consider

SQLALCHEMY_TRACK_MODIFICATIONS adds significant overhead and will be disabled by default in the futu

es - elasticsearch - aggs - bucket - significant_terms

Es Bucket聚合(桶聚合) Terms Aggregation与Significant Terms Aggregation

ADDM Reports bug:Significant virtual memory paging was detected on the host operating system

fls - find last (most-significant) bit set

rounding to an arbitrary number of significant digits

Significant Changes in the Role of Women

Testing is Significant!

Kibana 操作ES 聚合设置 set fielddata=true on [**]

安卓学习笔记37：利用OpenGL ES绘制平面图形

解决虚拟机中docker运行es和kibana后本地浏览器无法访问

es文件浏览器开启ftp服务器,es文件浏览器访问ftp服务器

JS拓展：Babel(解决低版本浏览器对es语法的兼容)

ES的安装以及使用

ES数据库入门

全文搜索引擎 ES(Elasticsearch) 简单使用说明

ES搜索引擎

发表评论

推荐文章

借助ChatGPT自动生成PPT

重启路由器可以换IP吗

测试知识点总结

【杂谈】当当最新购书优惠来了，满300-60，AI好书推荐

Jeston NX ubuntu 搜狗拼音输入法安装

热门文章

国产chatgpt：基于chatGLM微调nlp分类任务

基于Android Studio实现拍照识花+ChatGPT的期末作业

亲测好用，ChatGPT 3.54.0新手使用手册，最好论文指令手册~

Chap.2 总结《CL: An Introduction》 (Vyvyan Evans)

chrome浏览器启用es6语法支持,初次体验浏览器端模块化加载

配置 Mac M1 支持运行 linuxamd64 镜像

win系统排坑记

构建完善的安全渗透测试环境：推荐工具、资源和下载链接

idea部署tomcat并实现简单的web项目

忘记无线服务器密码怎么查,wifi密码忘记了要怎么查看？

最新文章

计算机win7分盘,win7电脑如何分盘

炫龙炎魔T1笔记本 Win7 系统安装

华硕e202s安装linux系统,华硕笔记本E202S原装win10系统可以改win7吗?

从0到1玩转戴尔G7 7588 macOS &amp; Win 双系统

戴尔 Alienware x17R2原厂win11系统带F12 Support Assist OS Recovery 一键恢复功能

win7开启uasp协议_全方位保护 Century USB3.0硬盘保护壳评测

计算机系统变慢的原因,浅析win7系统变慢的原因以及如何让电脑提速

LENOVO联想ThinkBook 16p G4 IRH(21J8)笔记本电脑原装出厂Windows11系统镜像

联想家庭版 mysql_联想电脑win10家庭版系统下载与安装

里程碑4刷Android和Linux双系统教程——win10系统win7虚拟机环境

HP惠普暗影精灵9Plus 17-CK2000系列 Windows11家庭中文版 原厂oem系统

平板电脑安装软件_完美适配win7操作系统的平板电脑，专治软件不兼容

七彩虹一体机 将星X17 Pro i9-12900H 3060原装出厂Windows11系统

华硕天选4笔记本电脑FX507ZV4、FX707ZIN原装出厂Windows11系统安装包下载

MateBook D 14 2020款 锐龙版 R5R7 集显(NblL-WFQ9)原厂Win10系统文件安装包下载

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

从0到1玩转戴尔G7 7588 macOS & Win 双系统

HP惠普暗影精灵9Plus 17-CK2000系列 Windows11家庭中文版原厂oem系统

七彩虹一体机将星X17 Pro i9-12900H 3060原装出厂Windows11系统

MateBook D 14 2020款锐龙版 R5R7 集显(NblL-WFQ9)原厂Win10系统文件安装包下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载