hive groupby和distinct原理|电子爱好者

admin管理员组
文章数量:1534824

2024年6月20日发(作者：)

hive groupby和distinct原理

在Hive中，groupby和distinct是两个常用的函数，用于对数

据进行聚合和去重操作。本文将分步骤阐述Hive中groupby和

distinct的原理。

一、groupby原理

groupby函数是用于对数据进行分组聚合操作的。具体来说，

groupby会将相同的数据分为一组，并对每组数据执行相同的聚合操作，

例如求和、平均值、最大值等。

下面是使用groupby函数的示例代码：

```

SELECT name, SUM(age) FROM student GROUP BY name;

```

在这个代码中，我们使用了groupby函数将名字相同的学生分为

一组，并对每组学生的年龄求和。

groupby的原理实际上是基于MapReduce的，即Hive将SQL语句

转化为MapReduce任务，并在MapReduce任务中执行groupby操作。

具体来说，MapReduce会先将数据进行切分，然后将每一部分数据传递

给一个Map任务。Map任务会将数据按照指定的分组字段（这里是

name）进行分组，并将每组数据转化为键值对。然后，MapReduce会将

相同键（也就是相同的name）的值进行合并，并将结果传递给Reduce

任务。Reduce任务会对每组数据执行聚合操作（这里是求和），得到

最终结果。

二、distinct原理

distinct函数是用于对数据进行去重操作的。具体来说，

distinct会从给定的数据集合中去除所有重复的数据，并返回去重后

的结果集合。

下面是使用distinct函数的示例代码：

```

SELECT DISTINCT name FROM student;

```

在这个代码中，我们使用了distinct函数从student表中去除

重复的name，并返回所有不重复的name集合。

distinct的原理实际上是基于hash表的，即Hive会将所有不重

复的值添加到一个hash表中，并将重复的值过滤掉。具体来说，Hive

会使用hash函数计算每个值的hash值，并将其添加到hash表中。当

要添加的值已经在hash表中存在时，Hive会将其过滤掉。最终，Hive

会将hash表中所有不重复的值作为结果返回。

总之，groupby和distinct是Hive中两个常用的函数，用于对

数据进行聚合和去重操作。groupby的原理是基于MapReduce的，利用

MapReduce的分组和合并操作对数据进行分组聚合；distinct的原理

是基于hash表的，利用hash表将重复的数据过滤掉，得到不重复的

结果。

本文标签：数据函数操作进行聚合

版权声明：本文标题：hive groupby和distinct原理内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1718894707a738177.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

【人工智能】人工智能、机器学习和数据工程 InfoQ 趋势报告 - 2021 年 8 月

1天前

关键要点我们看到越来越多的公司使用深度学习算法。因此，我们将深度学习从创新者转移到了早期采用者类别。与此相关的是，深度学习存在新的挑战，例如在边缘设备上部署算法和训练非常大

新赛题上线！2021 CCF大数据与计算智能大赛全面开赛！

1天前

关注公众号，发现CV技术之美 9月27日，第九届CCF大数据与计算智能大赛第2批赛题正式上线。至此，第九届CCF大数据与计算智能大赛全面开赛！ 自202

减少win11核显占用的内存怎么操作

1天前

减少win11核显占用的内存如何操作是很多小伙伴反应的问题，当我们的电脑新安装完win11的时候会发现系统的内存占用比较高，但是自己却没有开任何的占用高的软件，下面小编给大家

ESP8266学习笔记(3):手机发送数据经WiFi模块透传控制Arduino开发板上的led灯

1天前

本文参考：基于esp8266的智能家居控制系统-局域网篇2，tcpserver准备工作：ESP-01模块USB转串口杜邦线若干Arduino IDE软

移动硬盘无法访问怎么办？还能恢复数据吗？

22小时前

移动硬盘无法访问怎么办？移动硬盘连接电脑后出现无法读取，是常见是一个现象，这样一来里面的数据也无法读取了，最坏的结果就是数据丢失，

Linux下往移动硬盘拷贝数据步骤方式

22小时前

①， 使用 df -h 和 fdisk -l 查看确认移动硬盘信息 ； fdisk –l 或 more procpartitions#查看系统的硬盘和硬盘分区情况。 ②

移动硬盘文件或目录损坏且无法读取？分享恢复数据的方法

22小时前

案例：移动硬盘提示无法访问，文件或目录损坏且无法读取？ “这个移动硬盘两年没用了，今天拿出来找文件，插上电脑后移动硬盘打不开&a

移动硬盘无法访问提示未格式化，里面的数据怎么寻回

22小时前

移动磁盘打不开提示未格式化，是因为这个I盘的文件系统内部结构损坏导致的。移动硬盘无法访问提示未格式化，里面的数据怎么寻回具体的恢复方法看正文工具软件：极限数据恢复软件步

移动硬盘修复的有效方法，恢复移动硬盘的数据这么做！

21小时前

硬盘是计算机中的存储设备，是非常重要的部分。当硬盘发生故障，很可能会导致我们电脑里面的数据丢失。所以移动硬盘发生故障，我们一定要想办法修复它。有没有什么操作方法&

数据科学 IPython 笔记本四、Keras（下）

20小时前

四、Keras（下） 原文：keras-tutorials 译者：飞龙协议：CC BY-NC-SA 4.0 4.7 用于 MNI

AI视频下载：ChatGPT数据科学与机器学习课程

17小时前

ChatGPT是一个基于OpenAI开发的GPT-3.5架构的AI对话代理。作为一种语言模型,ChatGPT能够理解并对各种主题生成类似人类的响应,使其成为聊天机器人开发、客户服务和内容创作的多用途工具。此外,ChatGPT被设计为高度

15款免费在线PS替代软件，操作简单一学就会！

10小时前

Adobe Photoshop(PS)一直是图像编辑行业的领导者之一，应用领域非常广泛，可用于图像处理、摄影后期、平面设计、UI 设计、地图插图等。然而，对于业余设计师或对地

ps4pro折腾服务器网站,【教学】简易 PS4 Pro 更换 SSD！玩 MHW 不用等 (安装＋数据转移) - 宅客ZhaiiKer...

10小时前

各位 PlayStation 4 玩家平时回家想开机打猛汉，但 Load Game 时间之久真的很扫兴。其实可将 PS4 Pro机内的硬盘换成 SSD，无论在最初游戏加载、数据读取的速度都会大幅改

电脑磁盘突然不见，用DiskGenius恢复数据方法

9小时前

文章目录 DiskGenius5.4.1.1178 专业版下载使用DiskGenius恢复数据 DiskGenius5.4.1.1178 专业版下载感谢看雪论坛朋友的分享，在这里给出DiskGenius5.4.1专

基于国产操作系的问答机器人——博客2

8小时前

目录日期：2024118-2024125 学习实践任务学习经历一、问答系统分类二、问题类型三、问答系统用例四、初步了解网络爬虫遇到的问题及解决方法日期：2

Hbase常用操作

7小时前

作者： SUNNY 时间：2019-01-24 （一）均衡操作以1.4.9版本为例，默认balance策略是开启状态。如果关闭

Milvus 核心设计（1） ---- 数据一致性的等级及使用场景

7小时前

目录背景 Milvus的数据一致性设置数据一致性等级等级类型 PACELC定理 level详细解释 Strong Bounded staleness Session Eventually 总结背景分布式

【C语言刷题】文件操作章节配套练习（选择题 + 编程题）

7小时前

前言： 本篇为《维生素C语言》系列配套练习题，挑选了一些相对来说比较实用的练习，有助于巩固学习的知识。题目附带了答案和解析可供参考，顺便附上文件操作教

CentOS系统服务器装机后常用的操作命令大全

1小时前

博主猫头虎的技术世界 🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能！ 专栏链接： 🔗 精选专栏： 《面试题大全》 — 面试

Ajax请求ashx返回json数据的常见问题(转自：http:blog.163.comm13864039250_1blogstatic21386524820133254431945)...

1小时前

1。请求text数据，在success事件中手动解析前台： $.ajax({ type: "post", url: "checkFile.ashx", d

电子爱好者 - 最新技术资讯及电子产品介绍！

hive groupby和distinct原理

更多相关文章

【人工智能】人工智能、机器学习和数据工程 InfoQ 趋势报告 - 2021 年 8 月

新赛题上线！2021 CCF大数据与计算智能大赛全面开赛！

减少win11核显占用的内存怎么操作

ESP8266学习笔记(3):手机发送数据经WiFi模块透传控制Arduino开发板上的led灯

移动硬盘无法访问怎么办？还能恢复数据吗？

Linux下往移动硬盘拷贝数据步骤方式

移动硬盘文件或目录损坏且无法读取？分享恢复数据的方法

移动硬盘无法访问提示未格式化，里面的数据怎么寻回

移动硬盘修复的有效方法，恢复移动硬盘的数据这么做！

数据科学 IPython 笔记本 四、Keras（下）

AI视频下载：ChatGPT数据科学与机器学习课程

15款免费在线PS替代软件，操作简单一学就会！

ps4pro折腾服务器网站,【教学】简易 PS4 Pro 更换 SSD！玩 MHW 不用等 (安装＋数据转移) - 宅客ZhaiiKer...

电脑磁盘突然不见，用DiskGenius恢复数据方法

基于国产操作系的问答机器人——博客2

Hbase常用操作

Milvus 核心设计（1） ---- 数据一致性的等级及使用场景

【C语言刷题】文件操作章节配套练习（选择题 + 编程题）

CentOS系统服务器装机后常用的操作命令大全

Ajax请求ashx返回json数据的常见问题(转自：http:blog.163.comm13864039250_1blogstatic21386524820133254431945)...

发表评论

推荐文章

（附源码）Springboot网上购物系统 毕业设计 311236

【Android wifi】wifi基本原理

办公必备，PDF万能工具，确实好用！

com.thoughtworks.xstream.XStream的使用注意

u盘装机大师win7怎么安装系统教程

热门文章

安装Windows10系统后，CPU 不再支持虚拟化解决方案

android系统wifi控制风扇,（开源）ESP8266改装小风扇，app远程控制+天猫精灵控制...

DALL·E 3怎么用？DALL·E 3如何申请开通 ？DALL·E 3如何免费使用？AI绘画教程来喽~

aptio设置全中文_电脑开机后出现Aptio设置工具

mp4压缩怎么压缩？7款免费在线压缩视频的软件深度测评！（2024新）

PS2021中文汉化版软件安装教程

爱奇艺下载的QSV格式视频如何转换成MP3音频

周鸿祎谈产品（演讲全文）

vue 获取当前浏览器登录的ip

给360安全浏览器设置一个图片背景主题

最新文章

计算机enter代表什么意思,enter是什么意思

电脑快捷键大全 Ctrl

Ctrl 一直&quot;被&quot;按着

亲测！windows 交换CapsLock（大写键）与左侧Ctrl键位

笔记本电脑外带键盘无法使用电脑快键键

计算机剪切功能是哪个组合键,剪切快捷键是哪个 电脑剪切快捷键大全

按下组合键 可以迅速锁定计算机,电脑快速锁屏快捷键

计算机与home键功能相反的是,home键是什么，虚拟home键如何使用

电脑基本快捷键，你知道多少？

计算机del键作用,计算机里的英文字母“DEL”键是干什么用的

ctrl+alt+方向键

电脑计算机科学模式截屏,电脑截图的几种方法，简单实用-电脑怎么截图

macOS 电脑互换 Control 和 Command 键

虚拟机系统遇到ctrl键自动按下的问题

[计算机入门] 了解键盘

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

数据科学 IPython 笔记本四、Keras（下）

（附源码）Springboot网上购物系统毕业设计 311236

DALL·E 3怎么用？DALL·E 3如何申请开通？DALL·E 3如何免费使用？AI绘画教程来喽~

Ctrl 一直"被"按着

计算机剪切功能是哪个组合键,剪切快捷键是哪个电脑剪切快捷键大全

按下组合键可以迅速锁定计算机,电脑快速锁屏快捷键

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载