《大数据技术原理与应用》林子雨期末复习重点（总结）|电子爱好者

admin管理员组
文章数量:1534214

一、

1、数据产生方式大致经历了3个阶段：运营式系统阶段、用户原创内容阶段、感知式系统阶段。

2、大数据的特点:数据量大（volume）、数据类型繁多（variety）、处理速度快（velocity）、价值密度低（value）；4V+1C （C：复杂度 complexity）。

3、云计算的特点：超大规模、虚拟化、高可靠性、通用性、高可伸缩性、按需服务、极其廉价。

4、科学研究方面经历的4种范式：实验、理论、计算、数据。

5、大数据四种计算模式:批量计算(针对大规模数据的批量数据)；流计算(针对流计算的实时计算)；图计算(针对大规模图结构数据的处理)；查询分析计算(大规模数据的存储管理和查询分析)。

6、数据总体上可以分为静态数据和流数据。

7、对静态数据和流数据的处理，对应着两种截然不同的计算模式：批量计算和实时计算。

8、Hadoop的特性：高可靠性、高效性、高扩展性、高容错性、成本低、运行在Linux平台上、支持多种编程语言。

9、Hadoop的核心子项目：HDFS和MapReduce。HDFS 2.0的新特性HDFS HA和HDFS联邦。

10、YARN体系结构中的三个组件：ResourceManager、ApplicationMaster和NodeManager。

二、

1、分布式文件系统是一种通过网络实现文件在多台主机上进行分布式存储的文件系统。

2、名称节点：名称节点也叫主节点，负责管理分布式文件系统的命名空间，负责文件和目录的创建、删除和重命名等，同时管理着数据节点和文件块的映射关系。

数据节点：数据节点也叫从节点，负责数据的存储和读取，在存储时，有名称节点分配存储位置，然后由客户端把数据直接写入相应的数据节点。

第二名称节点：完成EditLog合并到FsImage的过程，缩短合并的重启时间，其次作为“检查点”保存元数据的信息。

3、HDFS体系结构：HDFS采用了主从结构模型，一个HDFS集群包括一个名称节点和若干个数据节点。

4、数据的冗余存储：作为一个分布式文件系统，为了保证系统的容错性和可用性，HDFS采用了多副本方式对数据进行冗余存储，通常一个数据块的多个副本会被分不到不同的数据节点上，数据块1被分别存放到数据节点A和C上，数据块2被存放在数据节点A和B上。(多副本存储:名称节点保存的元数据被分割成1、2、3、4、5个数据块，并复制多个副本分别保存在不同数据节点上。

有3个优点：

(1)加快数据传输速度。当多个客户端需要同时访问同一个文件时，可以让各个客户端分别从不同的数据块副本中读取数据，这就大大加快了传输速度。

(2)容易检查数据错误。HDFS的数据节点之间通过网络传输数据，采用多个副本可以很容易判断数据传输是否出错

(3)保证数据的可靠性。即使某个数据节点出现故障失效，也不会造成数据丢失。

5、HBase采用行键、列族、列限定符和时间戳进行索引。

HBase的功能组件：库函数、一个Master主服务器、许多个Region服务器。

HBase的系统架构：客户端、Zookeeper服务器、Master主服务器、Region服务器。

Zookeeper服务器：并非一台单一的机器，可能是由多台机器构成的集群来提供稳定可靠的协同服务。

6、Region服务器工作原理：1)用户读写数据过程。当用户写入数据时，被分配到相应的Region服务器去执行；用户数据首先写入到MemStore和HLog中。当用户读取数据时，Region服务器首先访问MemStore缓存，如找不到，再去磁盘上的StoreFile中寻找。2）缓存的刷新。系统周期性地把MemStore缓存里的内容刷写到磁盘的StoreFile文件中，清空缓存，并在Hlog里写入一个标记。每次刷写都生成一个新的StoreFile文件。每个Region服务器都有自己的HLog文件，每次启动检查该文件，确定最近一次执行缓存刷新之后是否发生新的写入；若发现更新，先写入MemStore再刷写到MemStore，最后删除旧的HLog文件，开始为用户提供服务。3）StoreFile的合并。每次刷写生成一个新的StoreFile，调用Storepact()把多个合并成一个。

7、NoSQL数据库特点：灵活的可扩展性、灵活的数据类型、与云计算紧密融合。

关系数据库主要表现：无法满足海量数据的管理需求；无法满足数据高并发的需求；无法满足高可扩展性和高可用性的需求。

8、NoSQL四大类型：键值数据库、列族数据库、文档数据库、图形数据库。

NoSQL三大基石：CAP、BASE、最终一致性。

CAP原则：C：一致性（Consistency）。它是指任何一个读操作总是能够读到之前完成的写操作的结果，也就是在分布式环境中，多点的数据是一致的。A：可用性（Availability）。它是指快速获取数据，可以在确定的时间内返回操作结果。P：分区容错性（Partition tolerance）。它是指当出现网络分区的情况时，分离的系统也能够正常运行。CAP原则指这三个要素最多只能同时实现两点，不可能三者兼顾。

ACID原则：A：原子性（Atomicity）。它是指事务必须是原子工作单位，对于其数据修改，要么全都执行，要么全都不执行。C：一致性（Consistency）。它是指事务在完成时，必须使所有的数据都保持一致状态。I：隔离性（Isolation）。它是指由并发事务所做的修改必须与任何其他并发事务所做的修改隔离。D：持久性（Durability）。它是指事务完成后，它对于系统的影响是永久性的，该修改即使出现致命的系统故障也将一直保持。

BASE理论：基本可用（Basically Available）、软状态（Soft State）、

最终一致性（Eventually Consistent）。

9、云数据库：云计算库是部署和虚拟化在云计算环境中的数据库，是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法，它极大地增强了数据库的存储能力，消除了人员、硬件、软件的重复配置，让软、硬件升级变得更加容易，同时也虚拟化了许多后端功能。云数据库具有高扩展性、高可用性、采用多租形式和支持资源有效分发等特点。

云数据库特性：动态可扩展、高可用性、较低的使用代价、易用性、高性能、免维护、安全。

10、Spark的4个主要特点：①运行速度快②容易使用③通用性④运行模式多样

Spark的优点：①Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，还提供了多种数据集操纵类型，编程模型比MapReduce更灵活。②Spark提供了内存计算，中间结果直接放到内存中，带来了更高的迭代运算效率。③Spark基于DAG的任务调度执行机制，要优于MapReduce的迭代执行机制。

RDD概念：RDD叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。

宽依赖、窄依赖：窄依赖表现为一个父RDD的分区对应于一个子RDD的分区，或多个父RDD的分区对应于一个子RDD的分区。宽依赖则表现为存在一个父RDD的一个分区对应一个子RDD的多个分区。

11、Storm的特点：①整合性②简易的API③可扩展性④容错性⑤可靠的消息处理⑥支持各种编程语言⑦快速部署⑧免费、开源。

Storm的主要术语：Streams、Spouts、Bolts、Topology和Stream Groupings

Spark Steaming和Storm最大的区别在于，Spark Steaming无法实现毫秒级的流计算，而 Storm则可以实现毫秒级响应。

12、Pregel图计算模型包括有向图和顶点、顶点之间的消息传递以及Pregel的计算过程，最后给出一个简单的实例。

13、PageRank算法在Pregle和MapReduce中实现的比较：①Pregel将PagRank处理对象看成连通图，而MapReduce则将其看成键值对。②Pregel将计算细化到顶点，同时在顶点内控制循环迭代次数，而MapReduce则计算批量化处理，按任务进行循环迭代控制。③图算法如果用MapReduce实现，需要一系列的MapReduce的调用。从一个阶段到下一个阶段，它需要传递整个图的状态，会产生大量不必要的序列化和反序列化开销。而Pregel使用超步简化了这个过程。

14、数据可视化是指将大型数据集中的数据以图形图像形式表示，并利用数据分析和开发工具发现其中未知信息的处理过程。

15、协同过滤推荐是指推荐系统中应用最早和成为成功的技术之一。

三、

1、Map和Reduce函数的关系

Map和reduce都是以<key，value>作为输入，按一定的映射规则转换成另一个或一批<key，value>进行输出。

Map：输入<k1，v1>；输出：List<k2，v2>；过程：1.将小数据集进一步解析成一批<key,value>对，输入map函数进行处理 2.每一个输入的<k1,v1>会输出一批<k2,v2>,<k2,v2>是计算的中间结果。

Reduce：输入<k2,List(v2)>；输出：<k3,v3>；过程:输入的中间结果<k2，List（v2）>中的List（v2）表示是一批属于同一个k2的value。

2、Map端的shuffle过程

①.输入数据和执行Map任务 2.写入缓存 3.溢写（分区，排序和合并）4.文件归并

Reduce端的shuffle过程

①“领取”数据 2.归并数据 3.将数据输入给reduce任务

3、简述HDFS HA

在一个典型的HA集群中，一般设置两个名称节点，其中一个名称节点处于“活跃”状态，另一个处于“待命”状态。处于活跃状态的名称节点负责对外处理所有客户端的请求，而处于待命状态的名称节点则作为备用节点，保存了足够多的系统的元数据，当名称节点出现故障时提供快速恢复力。也就是说，在HDFS HA中，处于待命状态的名称节点提供了“热备份”，一旦活跃名称节点出现故障，就可以立即切换到待命名称节点，不会影响系统的正常对外服务。

3、简述HDFS联邦（解决了可扩展性、系统性能、隔离性三个问题）

①在HDFS联邦中，设计了多个相互独立的名称节点，使得HDFS的命名服务能够水平扩展，这些名称节点分别进行各自命名空间和块的管理，相互之间是联邦关系，不需要彼此协调。②HDFS联邦中的名称节点提供了命名空间和块挂办理功能。③HDFS联邦拥有多个独立的命名空间，其中，每一个命名空间管理属于自己的一组块。

4、数据存取策略：包括数据存放、数据读取和数据复制等方面，是分布式文件系统的核心内容。（1）数据存放：HDFS采用了以机架为基础的数据存放策略，一个HDFS通常包含多个机架，不同机架之间的数据通信需要经过交换机或者路由器，同一个机架中不同机器之间的通信则不需要经过交换机和路由器。HDFS默认的冗余因子是3，每个文件块会被同事保存到3个地方，其中，2副本放在同一个机架的不同机器上，第三个副本放在不同的机架机器上。

（2）数据读取，HDFS提供了一个API可以确定一个数据节点所属的机架ID，客户端也可以调用API获取自己所属的机架ID。当客户端读取数据时，从名称节点获得数据块不同副本的存放位置列表，列表中包含了副本所在的数据节点，可以调用API来确定客户端和这些数据节点所属的机架ID。

（3）数据复制：采用流水线复制的策略。客户端要往HDFS中写入一个文件时，这个文件会首先被写入本地，并被切分为若干个块，每个块都向HDFS集群中的名称节点发起写请求，名称节点根据系统中各个数据节点的使用情况，选择一个数据节点列表返回给客户端，然后客户端把数据首先写入列表中的第一个数据节点，同时把列表传给第一个数据节点，第一个数据节点收到时写入本地，并向第二个数据节点发起链、连接请求，把数据和列表传给第二个数据节点，依次类推，列表中多个数据节点形成一条数据复制的流水线。最后，文件写完的时候，数据复制也同时完成。

本文标签：林子期末原理重点数据

版权声明：本文标题：《大数据技术原理与应用》林子雨期末复习重点（总结）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1726873937a1088133.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

《大数据技术原理与应用》林子雨 期末复习重点（总结）

更多相关文章

amd插帧技术如何开启_玩家真谛：通过AMD的 专属福利“插帧补帧”技术了解播放器原理...

大数据安全和网络安全基础知识

无线WiFi网络的密码破解攻防及原理详解

ios实现wifi搜索连接_Wifi 定位原理及 iOS Wifi 列表获取

wifi配网原理

移动硬盘无法读取数据，总是提醒格式化

移动硬盘文件或目录损坏且无法读取？分享恢复数据的方法

将数据从硬盘读取到内存中详解

Java 泛型之 JDK 的底层实现原理

你也可以成为数据分析师: 实战案例手把手教你如何在ChatGPT内使用Code Interpreter进行数据分析

前端对接AI模型接口 实现ChatGPT流式数据并【实现打字效果】和【终止会话】

GPT(Chat)原理及其应用

windows，mysql导入还原数据命令，恢复sql文件数据方法

【CVutils】计算机视觉：视频图像（清洗、裁剪、人脸区域抓取等）数据预处理&amp;数据集制作 || 代码合集

大数据技术与实践学习笔记（1 of 3，from hitwh）

【图文详解】HBase 的数据模型与架构原理详解

Milvus 核心设计（1） ---- 数据一致性的等级及使用场景

大模型思维链（Chain-of-Thought）技术原理

【解决抓包工具fiddler不抓取360浏览器的数据的问题】

360浏览器内核切换原理及代码优化方案

发表评论

推荐文章

确定MacLinux系统的架构类型是 x86-64（amd64），还是 arm64 架构

错误0x80070571:磁盘结构损坏且无法读取

情绪ABC理论

电脑开机遇到二维码怎么办？

英文写作笔记（1）Introduction

热门文章

网秦手机杀毒软件 v2.1 symbian s60 _symbian 7.0+ 免费

WIFI模块各种常见的配网方式说明及其比较

win7究竟比windowsXP或windows2003优秀多少呢?

【ChatGPT自动生成系列】SpringBoot集成Mybatis

ChatGPT-Midjourney 开源项目教程

像怀胎一样怀产品，要厚着脸皮听批评

Windows12（网页版）

.NET 二维码生成（ThoughtWorks.QRCode）

在Windows系统上安装Jenkins.war

360浏览器兼容模式下js失效的问题

最新文章

笔记（一）安装双系统+AGX刷机

Win7系统由于找不到MSVCP71.DLL程序无法启动解决办法

Ubuntu18.04双系统安装与安装后要做的事

如何安装或重新安装Windows 7

树莓派(0) : 树莓派4系统烧录、开机配置、网络连接、静态ip、开启root账号及ssh

PageAdmin网站后台管理系统（cms）报http403错误的解决方法

【转载】WIN7下硬盘安装UBUNTU 12.04

Win7系统提示找不到ocsetup.exe文件的解决办法

关于Ubuntu 16.04系统安装以及Nvidia显卡驱动安装的一些问题

Win7系统提示找不到mspaint.exe文件的解决办法

Win7系统由于找不到msvcp140_1.dll文件程序无法运行问题

Win7系统由于找不到msvcr80.dll程序无法启动问题

easyuefi只能在基于uefi启动的_主板传统BIOS引导与UEFI引导有何不同？选错了安装系统会出错的...

Win7系统提示找不到psr.exe文件的解决办法

Win7系统提示找不到bderepair.dll文件的解决办法

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

《大数据技术原理与应用》林子雨期末复习重点（总结）

amd插帧技术如何开启_玩家真谛：通过AMD的专属福利“插帧补帧”技术了解播放器原理...

前端对接AI模型接口实现ChatGPT流式数据并【实现打字效果】和【终止会话】

【CVutils】计算机视觉：视频图像（清洗、裁剪、人脸区域抓取等）数据预处理&数据集制作 || 代码合集

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载