admin管理员组

文章数量:1550655

Stinger Initiative:让Hive提速100倍

发表于 2013-02-27 20:312392次阅读| 来源 Hortonworks4 条评论| 作者 Alan Gates
hadoop 大数据 Hortonworks Stinger Initiative 摘要:在Hadoop生态圈,没有一家公司有比Hortonworks有更高的统治力,在Apache Hadoop社区,他占据最多的PMC和committer。他和Cloudera是社区利益最主要的争夺者。Stinger Initiative是一个彻底提升Hive效率的工具,与此同时,Hortonworks还在Apache孵化着多个项目,进一步扩大领地。

【CSDN编译】自从2007年Facebook提出Apache Hive和HiveQL后,他们已经成为事实上的Hadoop上的SQL接口。如今,各种类型的大公司或小公司都在使用Hive这中非常普遍的方法来访问Hadoop数据,从而给公司或者用户带来更多的价值。同时,还有许多公司通过大量已存的BI工具生态系统来达到相同的目的,这些BI工具同样使用Hive作为接口。

最初,Hive用于建立大规模的成批计算,这在数据报告、数据挖掘以及数据准备等应用场景很有效。这些应用场景很重要,但是Hadoop的需求十分广阔,企业用户越来越需要Hadooop具备更高的实时性和交互性。在Hortonworks,我们相信开源社区的创新力要超过任何一个专有的提供商,Stinger initiative再次证明了这一点,我们会联合(社区)伙伴一起提升Hive的性能。

什么是Stinger Initiative?

能让Hive回答问题的速度满足普通人(例如一个问题的返回时间在5-30秒),如大数据探索、可视化、参数化报告等场景,而且并不依赖其它工具,并分发到用户社区,可以很好的维护企业原有的投资和开发者的Hive技能。

图:Stinger Initiative的roadmap 

为此,我们发布了Stinger Initiative,并进入社区进行分享,为的是让Hive支持更多SQL,并实现更好的性能。一直以来,HiveQL都没有什么变化,而这次HiveQL将变得更强大。同时,与现有的工具保持一致形成完美的互补。

  • 首先,我们让Hive与人们在Hadoop上想要的查询想匹配。这包括增加类似OVER子句的分析功能,支持WHERE子查询,以及调整Hive的样式系统更多的符合标准的SQL模型。
  • 其次,我们优化了Hive的请求执行计划,我们内部某些测试结果显示,优化后的请求时间减少了90%。我们也着眼于在Hive执行引擎中增加一些改动,我们确信这可以增加单一Hive task每秒钟处理记录的数量。
  • 第三,我们在Hive社区中引入了新的列式文件格式(如ORC文件),提供一种更现代、高效和高性能的方式来储存Hive数据。
  • 最后,我们引入了一种新的runtime框架—— Tez,它的目标是消除Hive的延迟以及吞吐量限制。Tez通过消除不必要的task、障碍同步和对HDFS的读写作业来优化Hive job。这将优化Hadoop内部的执行链,彻底加速Hive负载处理。

所有这些对Hive的调整仍在公开的进行中,内部预览版将在今年三月举行的由Hortonworks主办的Hadoop大会上公开。

拥抱社区和Hive

许多不同的团队在Hive社区贡献着他们成果。来自SAP的Harish Butani的团队负责为Hive增加一个分析和数据窗口函数。这个函数将增加到OVER子句中用于已经存在的聚集函数,就像RAND、NTILE和LEAD、LAG等函数一样, 这里可以看到详细的说明。Facebook的Namit Jain已经花了大量时间来优化Hive的查需执行计划,这让Join等操作变的更高效,并减少来自用户的提示。Hortonworks已经参与到这些项目中。

Owen O’Malley,Hortonworks联合创始人,早期的Hadoop的开发者,已经在Facebook为ORC文件格式进行了大量工作,这项工作将帮助提升Hive读、写、处理数据的性能,在 这里可以看到详情。我们还在为一些更长远的目标工作,如重写Hive的运算符来处理上千的记录,其效率和现在相比将有大幅提升。

为什么要重新造轮子呢?(编译/ 包研责编/仲浩)

原文: Hortonworks

本文为CSDN编译,未经允许不得转载。如需转载请联系market@csdn。

本文标签: InitiativeStingerHive