Hadoop慢的原因以及如何优化|电子爱好者

admin管理员组
文章数量:1656763

1- mapreduce 跑的慢的原因？

Mapreduce 程序效率的瓶颈在于两点：

1）计算机性能 CPU、内存、磁盘健康、网络

2）I/O 操作优化

（1）数据倾斜

（2）map和reduce数设置不合理

（3）reduce等待过久

（4）小文件过多

（5）大量的不可分块的超大文件

（6）spill次数过多

（7）merge次数过多等

2- mapreduce 优化方法

1）数据输入：

（1）合并小文件：在执行mr任务前将小文件进行合并，大量的小文件会产生大量的map任务，增大map任务装载次数，而任务的装载比较耗时，从而导致 mr 运行较慢。

（2）采用ConbinFileInputFormat来作为输入，解决输入端大量小文件场景

2）map 阶段：

（1）减少spill次数：通过调整io.sort.mb及sort.spill.percent参数值，增大触发spill的内存上限，减少spill次数，从而减少磁盘 IO。

（2）减少merge次数：通过调整io.sort.factor参数，增大merge的文件数目，减少merge的次数，从而缩短 mr处理时间。

（3）在 map 之后先进行combine处理，减少 I/O。

3）reduce阶段：

（1）合理设置map和reduce数：两个都不能设置太少，也不能设置太多。太少，会导致task等待，延长处理时间；太多，会导致 map、reduce任务间竞争资源，造成处理超时等错误。

（2）设置map、reduce共存：调整slowstartpletedmaps参数，使map运行到一定程度后，reduce也开始运行，减少reduce的等待时间。

（3）规避使用reduce ，因为Reduce在用于连接数据集的时候将会产生大量的网络消耗。

（4）合理设置reduc端的buffer ，默认情况下，数据达到一个阈值的时候，buffer中的数据就会写入磁盘，然后 reduce会从磁盘中获得所有的数据。也就是说，buffer和reduce是没有直接关联的，中间多个一个写磁盘->读磁盘的过程，既然有这个弊端，那么就可以通过参数来配置，使得buffer中的一部分数据可以直接输送到reduce

从而减少IO开销：

mapred.job.reduce.input.buffer.percent ，默认为0.0。当值大于0的时候，会保留指定比例的内存读 buffer中的数据直接拿给reduce使用。这样一来，设置buffer需要内存，读取数据需要内存，reduce计算也要内存，所以要根据作业的运行情况进行调整。

4）IO运输：

（1）采用数据压缩的方式，减少网络IO的的时间。安装Snappy和LZOP压缩编码器。

（2）使用SequenceFile二进制文件

5）数据倾斜问题

（1）数据倾斜现象数据频率倾斜——某一个区域的数据量要远远大于其他区域。

数据大小倾斜——部分记录的大小远远大于平均值。

（2）如何收集倾斜数据：在reduce方法中加入记录map输出键的详细情况的功能。

（3）减少数据倾斜的方法：

1- 抽样和范围分区

可以通过对原始数据进行抽样得到的结果集来预设分区边界值。

2-自定义分区

另一个抽样和范围分区的替代方案是基于输出键的背景知识进行自定义分区。例如，如果map输出键的单词来源于一本书。其中大部分必然是省略词（stopword）。那么就可以将自定义分区将这部分省略词发送给固定的一部分reduce实例。而将其他的都发送给剩余的reduce实例。

3-Combine

使用Combine可以大量地减小数据频率倾斜和数据大小倾斜。在可能的情况下，combine的目的就是聚合并精简数据。

本文标签：原因 Hadoop

版权声明：本文标题：Hadoop慢的原因以及如何优化内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1729746591a1211771.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Hadoop慢的原因以及如何优化

1- mapreduce 跑的慢的原因？

Mapreduce 程序效率的瓶颈在于两点：

1）计算机性能 CPU、内存、磁盘健康、网络

2）I/O 操作优化

2- mapreduce 优化方法

1）数据输入：

2）map 阶段：

3）reduce阶段：

4）IO运输：

5）数据倾斜问题

（1）数据倾斜现象 数据频率倾斜——某一个区域的数据量要远远大于其他区域。

（2）如何收集倾斜数据 ： 在reduce方法中加入记录map输出键的详细情况的功能。

（3）减少数据倾斜的方法 ：

1- 抽样和范围分区

2-自定义分区

3-Combine

更多相关文章

PDF文件不能正常显示问题的原因及解决方法（图文）

react默认不支持ie11原因及解决办法

未能连接驱动人生服务器,驱动人生5wifi共享失败原因分析及解决方法汇总

计算机的的编码多的原因,计算机蓝屏代码0x000003b原因和解决方案

《EA Sports FC 24》“dxgi.dll”文件缺失游戏无法正确启动如何修复？《EA Sports FC 24》“dxgi.dll”文件缺失原因解析与解决方法。

太空镖客xapofx1_5.dll丢失怎么解决？太空镖客xapofx1_5.dll丢失原因全面解析与有效修复策略详解

office365服务器没有响应,Win10安装Office365时电脑无响应的原因和解决方案

关于official-account组件无法显示的原因

ChatGPT 报错：“Your OpenAi account has been deactivated…”什么原因？如何处理！

找到微信聊天记录占空间的真正原因了

STM32F407ZGT6 fatfs出现挂载成功，但是文件读写失败的原因

华为低版本手机无法正常安装软件（失败原因:验证失败）解决办法

【windows 1011 如何解决锁屏聚焦问题失败的原因】

Windows10自动重启 原因代码: 0x80020010

windows 服务器cpu使占用高的原因分析与解决办法

苹果市场金融类app上架ios1.2 ,5.2.1或3.21被拒原因解析

solidworks重建模型好慢_探究solidworks运行速度慢的原因和解决办法

matlab打开慢的原因,Matlab运行速度效率受哪些因素影响？

电脑卡,电脑卡到不行？原因和解决方法都在这里了！

C++程序卡死、UI界面卡顿问题的原因分析与总结

发表评论

推荐文章

惠普HP DesignJet T1708 打印机驱动

「干货」 装机如此简单！Windows 与 Linux 通用装机方法。(无需VM虚拟机)

如何正确的提问

物联网专题32：百度云物联网 ESP8266

html 加QQ链接QQ版本不支持,网站接入QQ登录（JS版）【最新教程 04.10更新】，亲身失败百次的总结...

热门文章

常见的Linux指令与Android的指令

用bat消灭autorun.inf文件夹

Win10安装Ubuntu20.04双系统

CDR2024序列号keygen注册机最新免费网盘下载

fiddler抓包工具安装以及初级使用教程——windows系统

windows定时服务

转-手机天猫解耦之路

手机邮件打开一个html会中木马,小心，QQ邮件中的木马！

Visual Studio调试慢或运行慢的解决办法

计算机忽然打开东西特别慢,“我的电脑”中文件打开很慢的解决方案

最新文章

恋爱必修课

Console Codes of The Elder Scrolls V: Skyrim

【职场篇】游戏开发社招求职面试指南②——公司选择

【DjangoDRF+缓存+JWT+RabbitMQ 七万字总结】

重磅福利 | 知乎上赞同数最高的1000个回答2019最新版

数学公式测试

c++用一级运算比较大小_原神主c角色用谁比较好 主c角色及圣遗物搭配攻略

【比特熊故事汇】4月MVP英雄故事：微软携手英特尔，特别“投资企划”披露

Android App安装包瘦身计划

【超全超详细】2W字零基础小白黑客学习路线，知识体系（附学习路线图

各大高校自曝状态一览，排名不分先后

Brytenwalda

龙之气息服务器维护,【龙之气息:从入坑到肝硬化】

游戏开发程序员求职面试指南

一支仙股和一个仙人救了高合

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

（1）数据倾斜现象数据频率倾斜——某一个区域的数据量要远远大于其他区域。

（2）如何收集倾斜数据：在reduce方法中加入记录map输出键的详细情况的功能。

（3）减少数据倾斜的方法：

Windows10自动重启原因代码: 0x80020010

「干货」装机如此简单！Windows 与 Linux 通用装机方法。(无需VM虚拟机)

c++用一级运算比较大小_原神主c角色用谁比较好主c角色及圣遗物搭配攻略

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载