大数据八股文（自用）|电子爱好者

admin管理员组
文章数量:1570221

一、Linux常用命令

常用高级命令	命令解释
top	实时系统监控工具显示系统中各个进程的资源占用状况（CPU、内存和执行时间）类似任务管理器
jmap - heap 进程号	查看某个进程内存，java进程堆内存
free -m	查看系统内存使用情况单位m
ps -ef process status	查看进程
netstat -tunlp \| grep 端口号	查看端口占用情况、查看端口号
du -sh 路径*	查看路径下的磁盘使用情况
tail -500 文件	查看日志文件后500行
yarn logs -ApplicationID jobid	查看yarn日志
tar -zxvf tar包 —C 路径	解压缩

二、shell

1.用过哪些shell工具？

cut：剪切，从文件的每一行剪切字节、字符和字段并输出。

awk：数据分析工具，默认以空格为分隔符将每行切片，切开的部分再进行分析处理

sort：排序

sed：流式编辑器

2.写过哪些脚本？

1.集群机器之间的分发脚本

2.集群组件启停脚本（手撕）
		#！/bin/bash
		case $1  in  
		"start")
			for i in hadoop102 hadoop103 hadoop104 
				do 
					ssh  绝对路径 
				done
		"stop")
			.....
		esac
		;;
3.mysql与hdfs的导入导出涉及到datax的脚本

4.数仓各层内部传数据的脚本

3.单引号和双引号的嵌套？

单引号不解析里面变量的值

双引号解析里面变量的值

若嵌套，谁在最外面谁起作用。

4.场景问题：Linux上有系统文件，一亿条数据，如何查出重复的数据，如何去重

基本都有常用的工具
uniq -d 打印重复的数据
uniq 去重

5. $0 $数字 $? $#

$0 脚本名字
$1 第一个参数
$? 返回数字指令上一个命令执行成功返回0，失败返回1
$# 脚本传入参数个数

三、Hadoop

1.常用端口号

HDFS页面访问端口	9870
Yarn任务调度访问端口	8088
历史服务器端口	19888
内部通信端口	8020

2.常用配置

core-site.xml

hdfs-site.xml

mapred-site.xml

yarn-site.xml

works

3.HDFS

3.1hdfs的读流程？

3.2hdfs的写流程？

客户端向namenode请求写文件，客户端检验是否有写入权限，文件目录是否存在，返回给客户端可以写入。

客户端请求写入文件的dn地址，nn根据机架感知返回3个dn，

客户端请求传输第一个block，建立与dn的通信管道，建立成功返回给客户端

客户端以packed为单位默认64k向第一个dn写入数据，一边写入磁盘一边传到下一个dn，传输完毕应答给客户端。

packet写一半挂了怎么办

3.3小文件的危害？

在存储计算两个方面都会浪费资源。

存储：NameNode的存储，每个都会占用150字节

计算：默认切片规则，每个文件单独切片。1字节的文件开启一个maptask占用1G，对内存和cpu资源的浪费

3.4小文件怎么解决？（成熟框架会帮助我们解决hbase）

1.har归档：把多个小文件合并归档，类似于一下发8个快递，效率更高一些。

2.CombineTextInputformat 把所有的文档放到一起统一切片，只开启一个maptask。

3.jvm重用，不一一关闭，等统一干完活再关闭jvm。

3.5副本机制

2-3个副本

3.6块大小，为什么设置成128M

跟磁盘读写速度有关系，寻址时间和传输时间

4.MapReduce

shuffle及其优化？

shuffle是map方法之后，reduce方法之前混写的区域，

map（）后进入getpartition（），按key分区，

进入默认100M的环形缓冲区，数据按key快排，达到80%反向溢写到磁盘中，会产生很多小文件，

再经过merge阶段，加载到内存中，归并排序，再溢写到磁盘中

reduce从磁盘中拉取属于自己分区的数据到内存缓冲区进行分组，达到66%再溢写到磁盘中做归并排序。

shuffle是map方法之后，reduce方法之前混写的区域

map方法之后，进入环形缓冲区时会有两个参数getpartition（）标记数据是哪个分区的，后续的操作都是在分区内进行，效率更高。进入环形缓冲区 100m，到达80%时会反向溢写，可以保证数据不断，提高效率。溢写前数据排序的手段：快排，对key的索引排，按照字典顺序排。溢写到磁盘中，会产生很大小文件，再加载到内存中归并排序，再写入到磁盘中，reduce从磁盘中拉取属于自己分区的数据，进行分组。

优化：

1.getpartition()方法自定义分区避免数据倾斜，由于相同key过多，增加一些随机数把key打散，进入不同分区后再把随机数去掉。

2.环形缓冲区增大到200M

3.80%溢写增加到90%溢写 2.3可以减少溢写文件的个数

4.我们内存归并的空间很充足，默认一次归并10个，增加到20个。不充足减少到5个。

5biner，在map阶段提前进行预聚合。不能影响后面的业务逻辑，只能求和，不能求平均值。

6.磁盘写之前，进行压缩，减少磁盘IO。如果数据量小快速压缩 snappy，如果数据量大，采用切片 bzip2或lzop 拉兹洛带索引p。reduce之后如果传入下一个map则如上，如果永久保存，使用gzip压缩

7.reduce默认一次拉5个maptask，reduce拉取到内存，如果内存充足可以多拉几个10个。也可以增加内存。

maptask一个默认1G能处理128M数据，reducetask也是。 1CU比例概念=1个CPU 4G内存，根据原始数据进行调整。

5.Yarn

5.1Yarn的工作机制

客户端向集群提交job

resourcemanager向客户端返回jobID，提交作业的HDFS路径

将运行所需资源提交到HDFS上。提交完毕，申请运行mrAppMaster

在RM将用户的请求初始化成一个Task，存放在调度队列

NodeManager领取Task任务创建 Container容器

容器开启MRAppmaster根据路径ID从HDFS拷贝资源到本地

读取切片信息向RM申请运行MapTask容器

RM将运行MapTask任务分配给另外两个NodeManager，另两个NodeManager分别领取任务并创建容器。

MapTask对数据分区排序等待所有MapTask运行完毕后，向RM申请容器，运行ReduceTask

程序运行完毕后，向RM申请注销。

0.MR程序提交到客户端所在的节点，main方法中有job.waitForCompletion()，运行YarnRunner，

1.YarnRunner向集群中的ResourceManager申请一个Application。

2.RM返回application资源提交的路径和application_ID，

3.该程序将运行所需资源提交到HDFS上，包括job.split，job.xml，jar包程序（分别代表要开启的maptask,程序要运行的配置，程序代码），

4.资源提交完毕，申请运行mrAppMaster

5.在RM将用户的请求初始化成一个Task，存放在调度队列

6.NodeManager领取Task任务创建 Container容器，容器中有cpu，磁盘IO

7.容器开启MRAppmaster根据路径ID从HDFS拷贝资源到本地

8.MRAppmaste读取job.split向RM申请运行MapTask容器

9.RM将运行MapTask任务分配给另外两个NodeManager，另两个NodeManager分别领取任务并创建容器。

10.MR向两个接收到任务的NodeManager发送程序启动脚本，这两个NodeManager分别启动MapTask，MapTask对数据分区排序。

11.MrAppMaster等待所有MapTask运行完毕后，向RM申请容器，运行ReduceTask。

12.ReduceTask向MapTask获取相应分区的数据。

13.程序运行完毕后，MR会向RM申请注销自己。

5.2调度器

默认default队列，需要根据部门业务线创建多队列

FIFO：先进先出，单队列

容量调度器：支持多队列，优先保证先进入的任务执行，资源不够可以借，每个队列fifo，谁先进来谁先分配（并行度低一些适用中小公司）

公平调度器：支持多队列，每个任务公平享有队列资源，资源不够可以借，缺额分配（并行度高适用中大公司）

5.3生产环境核心参数

配置调度器，默认是容量。ResourceManager处理调度器请求的线程数量，默认50.

NodeManager使用内存，默认8G，适用CPU默认8核。

本文标签：自用数据

版权声明：本文标题：大数据八股文（自用）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1727662197a1124345.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

重装系统前如何备份数据？让重装无后顾之忧

1天前

在日常使用电脑的过程中，有时我们可能需要重装系统以解决一些难以通过常规手段解决的问题。然而，在重装系统之前，最重要的一步就是备份数据，以防止重要信息的丢

实用工具 | Chrome谷歌浏览器安装JSONView扩展程序，方便查看JSON数据

1天前

JSONView是一款非常实用的JSON数据格式化和语法高亮扩展程序。官网地址：https:jsonview 可以访问JSONView测试地址 https:jsonviewexample.json &am

u盘数据如何恢复

1天前

U盘数据如何恢复？在生活中，无论是学生还是上班族，都需要使用到u盘。u盘最大的特点就是容量大，并且性能极为可靠，它不仅方便携带&a

U盘删除的数据为什么能恢复？一般能恢复多少

1天前

在数字化时代，U盘作为便携式的存储设备，承载着我们生活中的大量重要数据。然而，不慎删除数据的情况时有发生，让人焦虑不已。但幸运的是&#xff0c

一个无法识别数据的U盘数据恢复！！

1天前

一个无法识别数据的U盘数据恢复！！ 一个小时前，LP递给我一个U盘，说她在上面存储了很多重要的文件，可是突然在她的电脑上不

【U盘数据安全】如何创建U盘回收站

1天前

一般来说，用过U盘的朋友都知道，当我们要删除U盘中的文件时，往往显示的是“直接删除”，而无法将删除的文件移动到回收站，以致让不少误

一文读懂电子数据取证

1天前

电子取证的基本概念科学的运用提取和证明方法，对从电子数据源提取的证据进行保护、收集、验证、鉴定、分析、解释、存档和出示，以有助于进一步的犯罪事件重构或帮助识别某些计划操作无关的非授权性活动。

ubuntu ssh界面读取U盘数据

1天前

1.插上优盘后查看磁盘： sudo fdisk -l#查看U盘在Ubuntu里面的磁盘名称得到：得到磁盘名称为devsdd1 2.挂载U盘： sudo mou

ppt_powerbi转ppt，数据分析ppt

1天前

ppt_powerbi转ppt，数据分析ppt https:pan.baidus17NjlGEAKx3r4TkRs4PkgWA https:www.bilibilivideoBV1XW411U7eL?

最新Python数据分析：pandas读取和写入数据_pandas写入

1天前

read_csv()方法用来读取 csv格式的数据文件，read_table()方法则是读取通用分隔符分隔的数据文件，它们的参数相同。语法： pandas.read_csv(filepath_or_buffer, sep=’,’, del

电脑上数据丢了怎么找回来 Win系统误删文件如何恢复

3小时前

无论是在工作中，还是生活中，电脑都是不可缺少的重要工具，尤其是在工作中，电脑不仅可以高效的完成工作，还可以存储工作中的重要资料。不

DAMA学习笔记(六)-数据安全

3小时前

1.引言数据安全包括安全策略和过程的规划、建立与执行，为数据和信息资产提供正确的身份验证、授权、访问和审计。数据安全实践的目标是根据隐私和保密法规、合同协议和业务要求来保护信息资产。这些要求来自以下几个方面: 1&

MySQL数据相关问题总结（精选）

3小时前

目录 1.什么是索引？ 2.为什么要使用索引？ 3.常用的数据结构？ 4.索引采用的数据结构是什么？ 5.索引为什么要使用B树的数据结构&am

如何从 Mac 电脑外部硬盘恢复删除的数据文件

3小时前

本文向您介绍一些恢复 Mac 外置硬盘数据的快速简便的方法。 Mac 的内部存储空间通常不足以存储所有数据。因此，许多用户通过外部驱动器扩展存储或创建数据备份。然而，与几乎所有其他设备一样&am

数据分析大数据面试题大杂烩01

3小时前

互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东) 电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人

synology服务器限制用户复制文件,百度网盘开始限制群晖NAS用户上传数据调整后仅可上传100GB数据...

3小时前

群晖NAS附带的云同步套件可以与国内外多个网盘连接 , 连接后可从云上下载数据亦可从本地将数据上传到云上。例如通过云同步套件连接百度网盘账号后可以便捷上传和下载数据 , 若网盘空间较大甚至可用来备份整个NAS等。不过现在看来群晖与百度网

如何在 Windows 电脑的SSD硬盘恢复数据

3小时前

当人们想要更换硬盘时，他们通常会从 HDD（硬盘驱动器）切换到 SSD（固态硬盘）。这是因为 SSD 被认为比 HDD 更好并且速

2021超全大数据面试宝典，吐血总结十万字，大数据面试收藏这一篇就够了

2小时前

本文最新版已发布至公众号【五分钟学大数据】获取此套面试题最新pdf版，请搜索公众号【五分钟学大数据】，对话框发送面试宝典扫码获取最新PDF版： 版本时间描述

Hive实战之视频网站数据分析

2小时前

需求描述： 统计影音视频网站的常规指标，各种TopN指标： 统计视频观看数Top10统计视频类别热度Top10统计视频观看数Top20所属类别以及类别包含的Top20的视

Android--数据库数据显示至屏幕

2小时前

MainActivity.java 这段代码的作用是从数据库中获取到数据并显示在界面上 import java.util.ArrayList;import java.util.List;import com.itheima.showdat

电子爱好者 - 最新技术资讯及电子产品介绍！

大数据八股文（自用）

一、Linux常用命令

二、shell

1.用过哪些shell工具？

2.写过哪些脚本？

3.单引号和双引号的嵌套？

4.场景问题：Linux上有系统文件，一亿条数据，如何查出重复的数据，如何去重

5. $0 $数字 $? $#

三、Hadoop

1.常用端口号

2.常用配置

3.HDFS

3.1hdfs的读流程？

3.2hdfs的写流程？

3.3小文件的危害？

3.4小文件怎么解决？（成熟框架会帮助我们解决hbase）

3.5副本机制

3.6块大小，为什么设置成128M

4.MapReduce

shuffle及其优化？

5.Yarn

5.1Yarn的工作机制

5.2调度器

5.3生产环境核心参数

更多相关文章

重装系统前如何备份数据？让重装无后顾之忧

实用工具 | Chrome谷歌浏览器安装JSONView扩展程序，方便查看JSON数据

u盘数据如何恢复

U盘删除的数据为什么能恢复？一般能恢复多少

一个无法识别数据的U盘数据恢复！！

【U盘数据安全】如何创建U盘回收站

一文读懂电子数据取证

ubuntu ssh界面读取U盘数据

ppt_powerbi转ppt，数据分析ppt

最新Python数据分析：pandas读取和写入数据_pandas写入

电脑上数据丢了怎么找回来 Win系统误删文件如何恢复

DAMA学习笔记(六)-数据安全

MySQL数据相关问题总结（精选）

如何从 Mac 电脑外部硬盘恢复删除的数据文件

数据分析大数据面试题大杂烩01

synology服务器限制用户复制文件,百度网盘开始限制群晖NAS用户上传数据 调整后仅可上传100GB数据...

如何在 Windows 电脑的SSD硬盘恢复数据

2021超全大数据面试宝典，吐血总结十万字，大数据面试收藏这一篇就够了

Hive实战之视频网站数据分析

Android--数据库数据显示至屏幕

发表评论

推荐文章

Simple Object Copy，一款idea插件帮你优雅转化DTO、VO、BO、PO、DO

【Android】JNI调用（完整版）

系统：插上U盘没反应

IT专用英语词汇1500词

C磁盘爆满 修改NPM默认全局安装路径

热门文章

十个实战开发中必备的小策略

收集的一些

Ubuntu 微信&amp;QQ安装

Openwrt源码LuCI应用完整说明

u盘容量影响计算机运行速度,插u盘导致电脑运行速度慢的解决方法

win10linux安装一进去就蓝屏,Win10安装软件后蓝屏且无法进入安全模式如何解决

BT种子2磁力链接

macOS Monterey 12.2 (21D49) Boot ISO 原版可引导镜像

HTML之SWF自适应屏幕居中显示

win10系统窗口不显示在本桌面中，如何调出来

最新文章

2024年最新笔记本电脑推荐：商务、游戏、学生电脑购买指南

Centos8.5.2111（1）之本地yum源搭建和docker部署与网络配置

记一次sublime text3更新 注册码失效问题和永久解决~

SQLServer2019的安装

Endnote x7.5 破解 注册 激活

ASAv931安装&amp;初始化及ASDM管理

​MathType7.9破解激活码注册机分享

WIN常用小技巧

mathtype7.7.1.258破解版下载附激活教程+ 注册激活码

安卓APP让屏幕保持常亮，不息屏的方法

coreldraw2021序列号和激活码使用教程分享2024最新

【完整梳理验证】企业微信第三方应用接入全流程java版

通过EasyRecovery如何恢复被永久删除的音频？

Matlab2012b安装步骤(附带Matlab2012b破解码及序列号)

linux命令 查看分辨率,Linux命令行(console)屏幕分辨率调整

synology服务器限制用户复制文件,百度网盘开始限制群晖NAS用户上传数据调整后仅可上传100GB数据...

C磁盘爆满修改NPM默认全局安装路径

Ubuntu 微信&QQ安装

记一次sublime text3更新注册码失效问题和永久解决~

Endnote x7.5 破解注册激活

ASAv931安装&初始化及ASDM管理

MathType7.9破解激活码注册机分享

linux命令查看分辨率,Linux命令行(console)屏幕分辨率调整

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载