带你走进Impala query profile第二篇|电子爱好者

admin管理员组
文章数量:1660217

在上一篇文章中（带你走进Impala query profile第一篇_Allenzyg的博客-CSDN博客），我们介绍了Impala query profie的概要部分，在本篇文章我们介绍Profile的查询计划（Query Plan）和执行概要（Execution Summary）部分。

Profile的查询计划和执行概要如下所示：

Query Runtime Profile:

Query (id=2945a77ff619defe:b658730000000000):

Summary:

Session ID: 24abae22c723db5:2c0a25a81814e8a8

Session Type: BEESWAX

Start Time: 2020-07-03 11:58:47.317039000

End Time: 2020-07-03 12:12:56.216137000

Query Type: QUERY

Query State: FINISHED

Query Status: OK

Impala Version: impalad version 2.10.0-cdh5.13.3 RELEASE (build 15a453e15865344e75ce0fc6c4c760696d50f626)

User: root

Connected User: root

Delegated User:

Network Address: 10.138.232.87:36237

Default Db: default

Sql Statement: select count(*) from bms_ldgdb.ldg_690marketization_ledger t where check_flag in (4,-1) and ledger_status = 2 and is_delete = 0 and module in (1,2) and account_date >= '2020-06-01' and industry_code != ''

Coordinator: rrs-hdp-dn04:22000

Query Options (set by configuration):

Query Options (set by configuration and planner): MT_DOP=0

Plan:

----------------

Max Per-Host Resource Reservation: Memory=0B

Per-Host Resource Estimates: Memory=20.00MB

WARNING: The following tables are missing relevant table and/or column statistics.

bms_ldgdb.ldg_690marketization_ledger

F01:PLAN FRAGMENT [UNPARTITIONED] hosts=1 instances=1

| Per-Host Resources: mem-estimate=10.00MB mem-reservation=0B

PLAN-ROOT SINK

| mem-estimate=0B mem-reservation=0B

03:AGGREGATE [FINALIZE]

| output: count:merge(*)

| mem-estimate=10.00MB mem-reservation=0B spill-buffer=2.00MB

| tuple-ids=1 row-size=8B cardinality=1

02:EXCHANGE [UNPARTITIONED]

| mem-estimate=0B mem-reservation=0B

| tuple-ids=1 row-size=8B cardinality=1

F00:PLAN FRAGMENT [RANDOM] hosts=16 instances=16

Per-Host Resources: mem-estimate=10.00MB mem-reservation=0B

01:AGGREGATE

| output: count(*)

| mem-estimate=10.00MB mem-reservation=0B spill-buffer=2.00MB

| tuple-ids=1 row-size=8B cardinality=1

00:SCAN KUDU [bms_ldgdb.ldg_690marketization_ledger t]

predicates: industry_code != ''

kudu predicates: is_delete = 0, ledger_status = 2, check_flag IN (4, -1), module IN (1, 2), account_date >= '2020-06-01'

mem-estimate=0B mem-reservation=0B

tuple-ids=0 row-size=15B cardinality=unavailable

----------------

Estimated Per-Host Mem: 20971520

Tables Missing Stats: bms_ldgdb.ldg_690marketization_ledger

Per Host Min Reservation: rrs-hdp-dn03:22000(0) rrs-hdp-dn04:22000(0) rrs-hdp-dn05:22000(0) rrs-hdp-dn08:22000(0) rrs-hdp-dn11:22000(0) rrs-hdp-dn13:22000(0)

Request Pool: root.default

Admission result: Admitted immediately

ExecSummary:

Operator #Hosts Avg Time Max Time #Rows Est. #Rows Peak Mem Est. Peak Mem Detail

----------------------------------------------------------------------------------------------------------------------------------

03:AGGREGATE 1 316.053us 316.053us 1 1 40.00 KB 10.00 MB FINALIZE

02:EXCHANGE 1 14m8s 14m8s 6 1 0 0 UNPARTITIONED

01:AGGREGATE 6 2.746ms 5.205ms 6 1 67.00 KB 10.00 MB

00:SCAN KUDU 6 2m33s 14m8s 6.10M -1 299.00 KB 0 bms_ldgdb.ldg_690marketization_ledger t

接下来我们来逐一提取和介绍上面Profile片段中的信息：

1、表/列统计信息：

Max Per-Host Resource Reservation: Memory=0B

Per-Host Resource Estimates: Memory=20.00MB

WARNING: The following tables are missing relevant table and/or column statistics.

bms_ldgdb.ldg_690marketization_ledger

前两行仅说明资源信息，它们不是很重要，也不经常使用。

但是，下一行非常重要，因为Impala告诉我们是否检测到查询所涉及的表具有最新的统计信息，这一点非常关键，因为Impala使用表/列统计信息（table/column statistics information）来进行资源预估（resource estimation），并执行查询计划来确定运行查询的最佳策略，如果统计信息不是最新的，Impala最终将使用错误的查询计划，从而影响整体查询性能。

在上面的示例中，我们可以看到bms_ldgdb.ldg_690marketization_ledger表缺少统计信息，Impala在查询计划中给出了警告来提示用户需要在该表上执行COMPUTE STATS来消除这个警告信息。关于表统计的更多信息，请参阅Table and Column Statistics（Table and Column Statistics | 6.3.x | Cloudera Documentation）。

2、查询计划详情：

F01:PLAN FRAGMENT [UNPARTITIONED] hosts=1 instances=1

| Per-Host Resources: mem-estimate=10.00MB mem-reservation=0B

PLAN-ROOT SINK

| mem-estimate=0B mem-reservation=0B

03:AGGREGATE [FINALIZE]

| output: count:merge(*)

| mem-estimate=10.00MB mem-reservation=0B spill-buffer=2.00MB

| tuple-ids=1 row-size=8B cardinality=1

02:EXCHANGE [UNPARTITIONED]

| mem-estimate=0B mem-reservation=0B

| tuple-ids=1 row-size=8B cardinality=1

F00:PLAN FRAGMENT [RANDOM] hosts=16 instances=16

Per-Host Resources: mem-estimate=10.00MB mem-reservation=0B

01:AGGREGATE

| output: count(*)

| mem-estimate=10.00MB mem-reservation=0B spill-buffer=2.00MB

| tuple-ids=1 row-size=8B cardinality=1

00:SCAN KUDU [bms_ldgdb.ldg_690marketization_ledger t]

predicates: industry_code != ''

kudu predicates: is_delete = 0, ledger_status = 2, check_flag IN (4, -1), module IN (1, 2), account_date >= '2020-06-01'

mem-estimate=0B mem-reservation=0B

tuple-ids=0 row-size=15B cardinality=unavailable

----------------

查询计划（Query plan）是Impala profile中最重要的部分之一，我们需要知道如何读取它，因为它告诉我们如何扫描（scan）表、交换数据（data exchange）和连接（join）以获得最终结果。

如果查询很复杂，查询计划也可能会变得非常复杂，让我们从这个简单的查询开始，以了解它的基本信息。需要记住的一件事是，我们需要反向阅读这些信息，来理解Impala的执行计划。

注意：执行计划是从下往下读的。

2.1、KUDU 扫描：

第一步从KUDU扫描（KUDU Scan）开始：

00:SCAN KUDU [bms_ldgdb.ldg_690marketization_ledger t]

predicates: industry_code != ''

kudu predicates: is_delete = 0, ledger_status = 2, check_flag IN (4, -1), module IN (1, 2), account_date >= '2020-06-01'

mem-estimate=0B mem-reservation=0B

tuple-ids=0 row-size=15B cardinality=unavailable

从上面的片段中我们可以获取下面这些有用的信息：

运行查询所需的内存估计值为0，没有内存被预留

补充：如果是HDFS扫描

2.2、Aggregation操作：

HDFS扫描完成后，Impala需要做聚合（Aggregation），因为我们的SQL语句中使用了COUNT(*)：

01:AGGREGATE

| output: count(*)

| mem-estimate=10.00MB mem-reservation=0B spill-buffer=2.00MB

| tuple-ids=1 row-size=8B cardinality=1

这里没有太多要解释的，这个步骤执行的是聚合操作。

2.3、Fragment信息：

F00:PLAN FRAGMENT [RANDOM] hosts=16 instances=16

Per-Host Resources: mem-estimate=10.00MB mem-reservation=0B

00:SCAN KUDU和01:AGGREGATE片段上的SCAN和Aggregation操作都属于片段（FRAGMENT）F00，它在16个主机和16个实例上运行。F00这个片段ID可以用来在Profile的后面部分找到实际的片段统计信息，它可以告诉我们这个片段在运行时如何运行的详细信息。我们还将在本系列的后面部分讨论这个问题。

2.4、Exchange操作：

02:EXCHANGE [UNPARTITIONED]

| mem-estimate=0B mem-reservation=0B

| tuple-ids=1 row-size=8B cardinality=1

在每个工作节点（worker node）上完成聚合之后，需要将每个工作节点的结果交换给协调器节点（coordinator），这个步骤主要做的是这个操作，之后，协调器节点需要对这些结果进行最后的汇总/合并（aggregation/merger）：

03:AGGREGATE [FINALIZE]

| output: count:merge(*)

| mem-estimate=10.00MB mem-reservation=0B spill-buffer=2.00MB

| tuple-ids=1 row-size=8B cardinality=1

以上两个操作都属于同一个片段01，该片段又可以用来引用Profile数据的其余部分，以获取关于查询的更详细的统计信息：

F01:PLAN FRAGMENT [UNPARTITIONED] hosts=1 instances=1

现在，让我们来看看Profile的执行概要部分：

Operator #Hosts Avg Time Max Time #Rows Est. #Rows Peak Mem Est. Peak Mem Detail

----------------------------------------------------------------------------------------------------------------------------------

03:AGGREGATE 1 316.053us 316.053us 1 1 40.00 KB 10.00 MB FINALIZE

02:EXCHANGE 1 14m8s 14m8s 6 1 0 0 UNPARTITIONED

01:AGGREGATE 6 2.746ms 5.205ms 6 1 67.00 KB 10.00 MB

00:SCAN KUDU 6 2m33s 14m8s 6.10M -1 299.00 KB 0 bms_ldgdb.ldg_690marketization_ledger t

在这里你可以找到这些有用的信息：

1）每个操作花费的平均时间（Avg Time）和最大时间（Max Time）：如果两者相差较大，我们就会知道每个worker节点运行作业时存在不平衡/倾斜（in-balance/skew）情况，从理论上讲，它们应该处理相同数量的数据，所有节点应该在相同的时间范围内完成任务

2）实际行数和估计行数：#Row表示运行查询后实际返回的行数，Est. #Rows表示Impala根据表统计数据计算出的估计行数。如果#Row和Est. #Rows相差较大，就表明Impala中的表统计信息已经过时。在案例中，SCAN KUDU操作的Est. #Rows值为-1，#Rows的值为6.10M，就我们的测试表而言，我们没有表统计信息，因此Impala报告了-1的估算值。如果估计值（estimated value）是正数，但仍与实际返回的行数不同，我们就需要对该表运行COMPUTE STATS以更新统计信息

3）参与查询操作的节点数量：#Hosts列告诉我们，有多少工作节点参与了查询中的相关操作。在我的例子中，由于数据很小，我们只有一个主机来运行查询

4）实际内存和估计内存：Peak Mem和Est. Peak Mem是不言自明的，它们表示实际使用的内存与Impala根据表统计数据计算出的估计内存

如果查询中有连接（join）操作，Profile的总结信息中还将向我们展示连接操作中使用了什么连接策略：广播连接（Broadcast Join）还是随机连接（Shuffle Join）。

本文标签：带你第二篇 Query Impala Profile

版权声明：本文标题：带你走进Impala query profile第二篇内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1729850551a1215351.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

带你走进Impala query profile第二篇

更多相关文章

黑马程序员3天带你玩转Python深度学习TensorFlow框架学习笔记

“User Profile Service未能登录“问题分析对策总汇

黑猫带你学eMMC协议第27篇：什么是eMMC的动态容量（Dynamic Capacity）？

国内VDI市场之乱象分析，第二篇：传输协议篇

九天揽月带你玩转EKF纸老虎（3）

google chrome 修复profile error occurred 错误

苹果下载不了软件怎么办？手把手带你搞定

带你了解火遍全网的“AI大模型”看完这篇就够了~

解决postgresql-- ERROR: 42601: query has no destination for result data

2024带你轻松玩转Parallels Desktop19虚拟机！让你在Mac电脑上运行Windows系统

Unity一张图带你看懂Button的各种颜色设定（HighLighted、Pressed、Selected、Disabled Color）

一文带你了解操作系统

显卡驱动程序有必要更新吗?驱动人生带你分析

价格不断飙升的GPU，居然「出生」这么晚！一文带你了解GPU的前生今世

qq邮箱怎么引流，带你玩转QQ邮箱引流，QQ邮箱引流技巧

一文带你读懂 Android 手机为何总是卡顿、死机？

Linux入门教程笔记（一文带你了解Linux并精通）

Android之 知识总结第二篇

11 | 打开首页之一：一个案例，带你搞懂基础硬件设施的性能问题

Android开源项目第二篇——工具库篇

发表评论

推荐文章

初识Node.js与模块

青铜变王者，桌面云是如何逆袭的？

C语言：删除指定文件内容

impala删表，而hdfs上文件却还在异常处理

虚拟机恢复初始化设置

热门文章

转：传统软件商格局洗牌，SaaS时代谁有机会成最大赢家？

【realtime】红帽 RedHat Linux实时内核配置要点全面分析

Windows10中好用的软件推荐

五笔输入法汇总

Conservation Vs Non-conservation Forms of conservation Equations

微软网站打不开_WIN系统必备，微软常用运行库合集2018（x86x64）

互联网公司招聘--爱奇艺--互娱产品运营--2016年笔试题

计算机cad中删除文件,BIM问答|AutoCAD 的文件Autodesk shared删除不了,一删除就说这个文…...

linux删除指定日期的文件

Android MTK 在去除开机通过长按电源键+音量加进入 Recovery 工厂模式方面的解决方案

最新文章

openwrt路由表设置_怎样设置openwrt无线路由器

校园网用户设置无线路由器

广电网设置无线路由器

中兴机顶盒服务器地址大全,中兴机顶盒网络设置无线路由器教程

M1芯片的Mac电脑 cmd+R 无法进入到恢复模式

MySQL学习

路由器WIFI上网怎样设置固定IP

微知-梅林系统设置无线桥接模式后如何登录梅林路由器？

如何设置无线路由器上网？

window系统出现开机提示bootmgr is compressed，重启无法解决

windows FAQ

设置无线路由器与有线网络在同一网段

无线路由器接网线上网如何设置？

教你如何设置无线路由器

error怎么开机 fan_电脑开机后显示CPU Fan Error错误提示怎么办？分享六种解决方法...

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

Android之知识总结第二篇

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载