二、Impala查询计划研究学习（2）|电子爱好者

admin管理员组
文章数量:1660164

一、学习来源

微信公众号： Hadoop实操
链接：https://my.oschina/dabird/blog/3138768

二、说明

	在上一篇文章《一步一步理解Impala query profile（一）》中，我们介绍了Impala query profie的概要部分，
在本篇文章我们介绍Profile的查询计划（Query Plan）和执行概要（Execution Summary）部分。

三、Profile的查询计划和执行概要如下所示：

Query (id=36433472787e1cab:29c30e7800000000):
  Summary:
    ....Skipped here....
    Plan: 
----------------
Max Per-Host Resource Reservation: Memory=0B
Per-Host Resource Estimates: Memory=52.00MB
WARNING: The following tables are missing relevant table and/or column statistics.
default.sample_07

F01:PLAN FRAGMENT [UNPARTITIONED] hosts=1 instances=1
|  Per-Host Resources: mem-estimate=10.00MB mem-reservation=0B
PLAN-ROOT SINK
|  mem-estimate=0B mem-reservation=0B
|
03:AGGREGATE [FINALIZE]
|  output: count:merge(*)
|  mem-estimate=10.00MB mem-reservation=0B spill-buffer=2.00MB
|  tuple-ids=1 row-size=8B cardinality=1
|
02:EXCHANGE [UNPARTITIONED]
|  mem-estimate=0B mem-reservation=0B
|  tuple-ids=1 row-size=8B cardinality=1
|
F00:PLAN FRAGMENT [RANDOM] hosts=1 instances=1
Per-Host Resources: mem-estimate=42.00MB mem-reservation=0B
01:AGGREGATE
|  output: count(*)
|  mem-estimate=10.00MB mem-reservation=0B spill-buffer=2.00MB
|  tuple-ids=1 row-size=8B cardinality=1
|
00:SCAN HDFS [default.sample_07, RANDOM]
   partitions=1/1 files=1 size=44.98KB
   stats-rows=unavailable extrapolated-rows=disabled
   table stats: rows=unavailable size=44.98KB
   column stats: all
   mem-estimate=32.00MB mem-reservation=0B
   tuple-ids=0 row-size=0B cardinality=unavailable
----------------
    Estimated Per-Host Mem: 54525952
    Tables Missing Stats: default.sample_07
    Per Host Min Reservation: nightly514-3.vpc.cloudera.com:22000(0) nightly514-4.vpc.cloudera.com:22000(0) 
    Request Pool: root.hive
    Admission result: Admitted immediately
    ExecSummary: 
Operator       Hosts   Avg Time   Max Time  #Rows  Est. #Rows  Peak Mem  Est. Peak Mem  Detail            
-----------------------------------------------------------------------------------------------------------
03:AGGREGATE        1    0.000ns    0.000ns      1           1  20.00 KB       10.00 MB  FINALIZE          
02:EXCHANGE         1  868.991ms  868.991ms      1           1         0              0  UNPARTITIONED     
01:AGGREGATE        1    0.000ns    0.000ns      1           1  16.00 KB       10.00 MB                    
00:SCAN HDFS        1  743.001ms  743.001ms    823          -1  80.00 KB       32.00 MB  default.sample_07

四、接下来我们来逐一提取和介绍上面Profile片段中的信息：

1、表/列统计信息：

Max Per-Host Resource Reservation: Memory=0B
Per-Host Resource Estimates: Memory=52.00MB
WARNING: The following tables are missing relevant table and/or column statistics.
default.sample_07

	但是，下一行非常重要，因为Impala告诉我们是否检测到查询所涉及的表具有最新的统计信息，这一点
非常关键，因为Impala使用表/列统计信息（table/column statistics information）来进行资源预估（resource 
estimation），并执行查询计划来确定运行查询的最佳策略，如果统计信息不是最新的，Impala最终将使用错
误的查询计划，从而影响整体查询性能。

	在上面的示例中，我们可以看到default.sample_07表缺少统计信息，Impala在查询计划中给出了警告来提示
用户需要在该表上执行COMPUTE STATS来消除这个警告信息。
	关于表统计的更多信息，请参阅Table and Column Statistics：
	链接：https://www.cloudera/documentation/enterprise/latest/topics/impala_perf_stats.html

2、查询计划详情：

F01:PLAN FRAGMENT [UNPARTITIONED] hosts=1 instances=1
|  Per-Host Resources: mem-estimate=10.00MB mem-reservation=0B
PLAN-ROOT SINK
|  mem-estimate=0B mem-reservation=0B
|
03:AGGREGATE [FINALIZE]
|  output: count:merge(*)
|  mem-estimate=10.00MB mem-reservation=0B spill-buffer=2.00MB
|  tuple-ids=1 row-size=8B cardinality=1
|
02:EXCHANGE [UNPARTITIONED]
|  mem-estimate=0B mem-reservation=0B
|  tuple-ids=1 row-size=8B cardinality=1
|
F00:PLAN FRAGMENT [RANDOM] hosts=1 instances=1
Per-Host Resources: mem-estimate=42.00MB mem-reservation=0B
01:AGGREGATE
|  output: count(*)
|  mem-estimate=10.00MB mem-reservation=0B spill-buffer=2.00MB
|  tuple-ids=1 row-size=8B cardinality=1
|
00:SCAN HDFS [default.sample_07, RANDOM]
   partitions=1/1 files=1 size=44.98KB
   stats-rows=unavailable extrapolated-rows=disabled
   table stats: rows=unavailable size=44.98KB
   column stats: all
   mem-estimate=32.00MB mem-reservation=0B
   tuple-ids=0 row-size=0B cardinality=unavailable

	查询计划（Query plan）是Impala profile中最重要的部分之一，我们需要知道如何读取它，因为它告诉我们
如何扫描（scan）表、交换数据（data exchange）和连接（join）以获得最终结果。

	如果查询很复杂，查询计划也可能会变得非常复杂，让我们从这个简单的查询开始，以了解它的基本信息。
需要记住的一件事是，我们需要反向阅读这些信息，来理解Impala的执行计划。

2.1、HDFS 扫描：

第一步通常从HDFS扫描（HDFS Scan）开始：

00:SCAN HDFS [default.sample_07, RANDOM]
   partitions=1/1 files=1 size=44.98KB
   stats-rows=unavailable extrapolated-rows=disabled
   table stats: rows=unavailable size=44.98KB
   column stats: all
   mem-estimate=32.00MB mem-reservation=0B
   tuple-ids=0 row-size=0B cardinality=unavailable

从上面的片段中我们可以获取下面这些有用的信息：

	表中只有一个分区，Impala也读取一个分区。这并不一定意味着这个表是分区的，如果表没有分区，它也将
显示为1/1
	表/分区下只有一个文件(files=1)
	Impala读取的数据总大小为44.98KB
	这个表没有可用的统计信息(stats-rows=unavailable, table stats: rows=unavailable, cardinality=unavailable)
	运行查询所需的内存估计值为32MB，没有内存被预留

2.2、Aggregation操作：

HDFS扫描完成后，Impala需要做聚合（Aggregation），因为我们的SQL语句中使用了COUNT(*)：

01:AGGREGATE
|  output: count(*)
|  mem-estimate=10.00MB mem-reservation=0B spill-buffer=2.00MB
|  tuple-ids=1 row-size=8B cardinality=1

这里没有太多要解释的，这个步骤执行的是聚合操作。

2.3、Fragment信息：

F00:PLAN FRAGMENT [RANDOM] hosts=1 instances=1
Per-Host Resources: mem-estimate=42.00MB mem-reservation=0B

	00:SCAN HDFS和01:AGGREGATE片段上的SCAN和Aggregation操作都属于片段（FRAGMENT）F00，
它在一个主机和一个实例上运行。F00这个片段ID可以用来在Profile的后面部分找到实际的片段统计信息，
它可以告诉我们这个片段在运行时如何运行的详细信息。我们还将在本系列的后面部分讨论这个问题。

2.4、Exchange操作：

02:EXCHANGE [UNPARTITIONED]
|  mem-estimate=0B mem-reservation=0B
|  tuple-ids=1 row-size=8B cardinality=1

	在每个工作节点（worker node）上完成聚合之后，需要将每个工作节点的结果交换给协调器节（coordinator），
这个步骤主要做的是这个操作，之后，协调器节点需要对这些结果进行最后的汇总/合并（aggregation/merger）：

03:AGGREGATE [FINALIZE]
|  output: count:merge(*)
|  mem-estimate=10.00MB mem-reservation=0B spill-buffer=2.00MB
|  tuple-ids=1 row-size=8B cardinality=1

	以上两个操作都属于同一个片段01，该片段又可以用来引用Profile数据的其余部分，以获取关于查询的更详
细的统计信息：

F01:PLAN FRAGMENT [UNPARTITIONED] hosts=1 instances=1

3、现在，让我们来看看Profile的执行概要部分：

Operator       #Hosts   Avg Time   Max Time  #Rows  Est. #Rows  Peak Mem  Est. Peak Mem  Detail
-----------------------------------------------------------------------------------------------------------
03:AGGREGATE        1  999.992us  999.992us      1           1  20.00 KB       10.00 MB  FINALIZE
02:EXCHANGE         1  831.992ms  831.992ms      1           1         0              0  UNPARTITIONED
01:AGGREGATE        1    0.000ns    0.000ns      1           1  16.00 KB       10.00 MB
00:SCAN HDFS        1  709.995ms  709.995ms    823          -1  80.00 KB       32.00 MB  default.sample_07

在这里你可以找到这些有用的信息：

1. 每个操作花费的平均时间（Avg Time）和最大时间（Max Time）：

	如果两者相差较大，我们就会知道每个worker节点运行作业时存在不平衡/倾斜（in-balance/skew）情况，
从理论上讲，它们应该处理相同数量的数据，所有节点应该在相同的时间范围内完成任务。

2. 实际行数和估计行数：

	#Row表示运行查询后实际返回的行数，Est. #Rows表示Impala根据表统计数据计算出的估计行数。如果#Row和
Est. #Rows相差较大，就表明Impala中的表统计信息已经过时。在案例中，SCAN HDFS操作的Est. #Rows值为-1，
#Rows的值为823，就我们的测试表而言，我们没有表统计信息，因此Impala报告了-1的估算值。如果估计值
（estimated value）是正数，但仍与实际返回的行数不同，我们就需要对该表运行COMPUTE STATS以更新统计
信息。

3. 参与查询操作的节点数量：

	#Hosts列告诉我们，有多少工作节点参与了查询中的相关操作。在我的例子中，由于数据很小，我们只有一个
主机来运行查询

4. 实际内存和估计内存：

Peak Mem和Est. Peak Mem是不言自明的，它们表示实际使用的内存与Impala根据表统计数据计算出的估计内存

五、结束语

	如果查询中有连接（join）操作，Profile的总结信息中还将向我们展示连接操作中使用了什么连接策略：广播连接
（Broadcast Join）还是随机连接（Shuffle Join）。在本系列的最后一部分，我将用一个更复杂的query profile让大
家了解更多信息。

本文标签：计划 Impala

版权声明：本文标题：二、Impala查询计划研究学习（2）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1729851146a1215427.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

计算机设备国产化替代方案,热推:涉密计算机国产化替代计划

1月前

热推:涉密计算机国产化替代计划qnztbp,3)服务程序服务程序能够提供一些常用的服务性功能，它们为用户程序和使用计算机提供了方便，像微机上经常使用的诊断程序、调试程序、编辑程序均属此类。回收站主要用来存放用户临时删除的文档资料，存放在回

软考A计划-电子商务设计师-电商设计师重点

1月前

Unity3D特效百例案例项目实战源码Android-Unity实战问题汇总游戏脚本-辅助自动化Android控件全解手册再战Android系列Scratch编程案例软考全系列Unity3D学习专栏蓝桥系列ChatGPT和AIGC &am

数据挖掘思维和实战04 理解业务和数据：我们需要做好什么计划？

1月前

从这一课时开始，我们就要学习数据挖掘的具体步骤了。这里面的每一个步骤看似都是循规蹈矩的，但是在实际的工作中，通常都会有各种各样的限制，遇到各种各样的

哥白尼计划（Copernicus initiative）

1月前

哥白尼计划服务领域包括：大气、海洋、土地、气候变化、安全和应急等等。星座卫星每天成产的数据量高达12TB，这些数据通过哥白尼空间设施和服务设施面向全球各机构和人员免费提供。哥白尼的数据和信息服务可

vivox9android7.1版本,vivo公布FunTouch OS 3.1升级计划 vivo升级安卓7.1机型有哪些

28天前

vivo昨天刚发布了新机vivo x9s，紧跟着就发布系统升级安卓7.1的公告，将在接下来的两个月内为旗下多款手机推送Funtouch OS 3.1升级计划，想知道哪些机型支

小米android11适配计划,小米、vivo、一加等宣布Android 11 beta版本适配计划

28天前

谷歌已经在昨天面向Pixel系列机型用户推出了Android 11 beta版本更新，用户注册beta测试计划即可率先升级到新版本的测试版本。除了谷歌亲儿子系列产品之外，部分国内手机厂商的产品也是

MICROSOFT Msdn(订阅) 计划

26天前

MICROSOFT Msdn(订阅) 计划最终用户许可协议这是 Microsoft Msdn(订阅) 计划（以下简称“Msdn(订阅)”或“计划”）中可用软件的最终用户许可协议。使用软件时还要

开发者计划政策（1）（更新自 2024 年 5 月 31 日起生效，拒审封号政策自查）

24天前

政策更新自查，高危风险和移动危险软件邮件的可以截图私聊，需要开发者带上拒审邮件和内容，带上包体类型，避免不能及时定位问题导致浪费上架时间。开发者计划政策前言受限内容危害儿童不当内容金融服务现金赌博、游戏和竞赛非法活动用户生成的内容健康内

古登堡计划_如何测试您的网站以更新到古登堡（WordPress 5.0）

23天前

古登堡计划 Are you excited to use the new WordPress Gutenberg editor? Officially launched with WordPress 5.0, Gutenberg is th

imooc-Linux达人养成计划 I

23天前

imooc-Linux达人养成计划 I 第1章 Linux简介 1-1 Linux简介 Linux发展史 Minix 版本 Linux内核版本 Linux内核官网：www.kernel内核版本说明&#xf

定时自动关机计划命令

22天前

at 21:00 every:M,T,W,Th,F shutdown -f -s -t 0 意思是每周一到五21点自动关机先说下系统自带的关机指令，很多人应该已经知道了，就是shutdown

unity认证_介绍Unity认证计划

22天前

unity认证 Thanks for your interest in Certifications. This post is out-of-date, so check out certifications.unity for the

win7计算机自动关机设置在哪里设置方法,win7系统怎么设置每天自动关机|win7创建定时关机计划的方法...

14天前

‍‍ 有些时候可能有些深度技术win7用户的电脑每天关机的时候都是固定的时间，于是想要设置定时关机，让电脑每天一到时间就自动关机，但是在win7系统怎么设置每天自动关机呢&a

计算机组装与维修实训计划,计算机组装与维护实训计划打印版.doc

12天前

计算机组装与维护实训计划打印版计算机组装与维护实训计划课程设计目的1、练习识别计算机部件的方法，并能在一定的条件下判断计算机部件的好坏与优劣。2、练习计算机硬件安装基本方法与步骤，锻

ArduPilot飞控之DIY-F450计划

9天前

ArduPilot飞控之DIY-F450计划 1. 历史2. 源由3. 计划3.1 硬件3.2 软件 4. 动手4.1 接线4.1.1 ELRS nano接收机4.1.2 BN880 GPS模块4.1.3 Radio Telemetry 4

百度发布地表最强 AI 计划，联手京沪搞智慧城市

8天前

作为百度自 2006 年起每年的保留节目，2018 年百度世界大会今天在京召开，AI前线带来最新的大会现场报道。从本次大会的主题“Yes，AI Do”就可以看出&#x

mysql一键批量备份压缩.bat可以设置windows计划任务自动备份

7天前

mysql一键批量备份压缩.bat可以设置windows计划任务自动备份脚本描述： 1、多个数据库名定义在文件中，脚本通过读取文件，循环获得数据库名称&#xff0

行之有效的C盘清理方法，C盘瘦身计划

5天前

C盘瘦身方法总览我们现在很可能每天都在使用电脑，不少人都因C盘莫名其妙被占满感到困扰。本人前几天同样如此，所以在这边总结一些本人从网络上找到的并实践有效的C盘删除多余文件方法&#xff

NEFU ERP 企业资源计划[1] 详细知识点

3天前

NEFU ERP 企业资源计划[1] 详细知识点 ERP 企业资源管理计划第 0 章术语第 1 章 ERP 概述1、什么是 ERP2、ERP 目的3、ERP 应用第 2 章 ERP 理论与发展1、ERP 发展概述订货点法物料需求计划 M

oracle表分析analyz,表分析 analyze 及dbms_stats 提高执行计划准确性

2小时前

之前遇到这样一个问题，有个表有3000W多条数据，并且每月都有300W左右的数据量在增加，同时这个表的数据经常需要查询更新和删除。由于经常进行插入，删除，更新从而导致执行计划很不准，一条很简单的链接查询都要好几分钟。稍微复杂点的查询经常超

电子爱好者 - 最新技术资讯及电子产品介绍！

二、Impala查询计划研究学习（2）

一、学习来源

二、说明

三、Profile的查询计划和执行概要如下所示：

四、接下来我们来逐一提取和介绍上面Profile片段中的信息：

1、表/列统计信息：

2、查询计划详情：

2.1、HDFS 扫描：

2.2、Aggregation操作：

2.3、Fragment信息：

2.4、Exchange操作：

3、现在，让我们来看看Profile的执行概要部分：

五、结束语

更多相关文章

计算机设备国产化替代方案,热推:涉密计算机国产化替代计划

软考A计划-电子商务设计师-电商设计师重点

数据挖掘思维和实战04 理解业务和数据：我们需要做好什么计划？

哥白尼计划（Copernicus initiative）

vivox9android7.1版本,vivo公布FunTouch OS 3.1升级计划 vivo升级安卓7.1机型有哪些

小米android11适配计划,小米、vivo、一加等宣布Android 11 beta版本适配计划

MICROSOFT Msdn(订阅) 计划

开发者计划政策（1）（更新自 2024 年 5 月 31 日起生效，拒审封号政策自查）

古登堡计划_如何测试您的网站以更新到古登堡（WordPress 5.0）

imooc-Linux达人养成计划 I

定时自动关机计划命令

unity认证_介绍Unity认证计划

win7计算机自动关机设置在哪里设置方法,win7系统怎么设置每天自动关机|win7创建定时关机计划的方法...

计算机组装与维修实训计划,计算机组装与维护实训计划打印版.doc

ArduPilot飞控之DIY-F450计划

百度发布地表最强 AI 计划，联手京沪搞智慧城市

mysql一键批量备份压缩.bat可以设置windows计划任务自动备份

行之有效的C盘清理方法，C盘瘦身计划

NEFU ERP 企业资源计划[1] 详细知识点

oracle表分析analyz,表分析 analyze 及dbms_stats 提高执行计划准确性

发表评论

推荐文章

63. Web前端网页制作 水果商城网页设计实例 大学生期末大作业 html+css+js

UFS协议—新手快速入门（一）【1-4】

向大家推荐一款可以免费在线Word转pdf，jpg转pdf，ppt转pdf等各种格式转换的网站

wegame启动cf蓝屏_Wegame蓝屏怎么解决-解决wegame运行蓝屏、游戏蓝屏的方法 - 河东软件园...

Android-音视频学习系列-(九)Android-端实现-rtmp-推流，零基础如何成为高级Android开发

热门文章

最新android手机游戏下载地址,恶狼游戏怎么下载到手机 最新安卓版下载地址

8大应用助你个性化定制最Cool的Android手机

如何保证系统的高可用？来看看这个低代码平台怎么做

RGGZS(流氓插件软告工作室)

linux 开发角度学习总结（持续更新中···）

在Office的Excel中打开WPS很慢

WinRAR 简体中文商业版-官方原版下载地址

linux卸载dhcp后安装失败,网络 – 在Ubuntu网络安装中DHCP失败：DHCPDECLINE

VMware虚拟机在（校园网拨号上网）环境无法上网的解决方案

GBD数据库——如何绘制SDI与发病率的相关图

最新文章

三星U盘格式化后数据不见了？3个方法帮您找回珍贵文件

格式化后数据恢复全解析

华恒2410常见问题

Windows Mobile平台智能系统存储器ROM和RAM解释

移动硬盘加密

如何恢复U盘里格式化数据？别慌，有带图详细步骤！

ubuntu2

转载：基于AT91RM9200与LINUX2.6.26内核的嵌入式平台开发全过程

ArchLinux 2009.08 硬盘安装

计算机二级基础知识

u盘格式化后数据能恢复吗？这四款工具别错过！

u盘快速格式化后怎么恢复文件：深入解析与全面指南

授之以鱼不如授之以渔！五分钟教会您手工查杀***！

|--------硬件故障专题--------| 主板.CPU.硬盘.内存.显卡.声卡

s3c2410 一些移植常见问题

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

63. Web前端网页制作水果商城网页设计实例大学生期末大作业 html+css+js

最新android手机游戏下载地址,恶狼游戏怎么下载到手机最新安卓版下载地址

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载