大数据是什么意思|电子爱好者

admin管理员组
文章数量:1530987

2024年7月12日发(作者：)

大数据是什么意思

大数据（Big Data）

大数据，官方定义是指那些数据量特别大、数据类别特别复杂

的数据集，这种数据集无法用传统的数据库进行存储，管理和处理。

大数据的主要特点为数据量大（Volume），数据类别复杂（Variety），

数据处理速度快（Velocity）和数据真实性高（Veracity），合起来被称

为4V。

大数据中的数据量非常巨大，达到了PB级别。而且这庞大的

数据之中，不仅仅包括结构化数据（如数字、符号等数据），还包括

非结构化数据（如文本、图像、声音、视频等数据）。这使得大数据

的存储，管理和处理很难利用传统的关系型数据库去完成。在大数据

之中，有价值的信息往往深藏其中。这就需要对大数据的处理速度要

非常快，才能短时间之内就能从大量的复杂数据之中获取到有价值的

信息。在大数据的大量复杂的数据之中，通常不仅仅包含真实的数据，

一些虚假的数据也混杂其中。这就需要在大数据的处理中将虚假的数

据剔除，利用真实的数据来分析得出真实的结果。

大数据分析（Big Data Analysis）

大数据，表面上看就是大量复杂的数据，这些数据本身的价值

并不高，但是对这些大量复杂的数据进行分析处理后，却能从中提炼

出很有价值的信息。对大数据的分析，主要分为五个方面：可视化分

析（Analytic Visualization）、数据挖掘算法（Date Mining Algorithms）、

预测性分析能力（Predictive Analytic Capabilities）、语义引擎（Semantic

Engines）和数据质量管理（Data Quality Management）。

可视化分析是普通消费者常常可以见到的一种大数据分析结

果的表现形式，比如说百度制作的“百度地图春节人口迁徙大数据”

就是典型的案例之一。可视化分析将大量复杂的数据自动转化成直观

形象的图表，使其能够更加容易的被普通消费者所接受和理解。

数据挖掘算法是大数据分析的理论核心，其本质是一组根据算

法事先定义好的数学公式，将收集到的数据作为参数变量带入其中，

从而能够从大量复杂的数据中提取到有价值的信息。著名的“啤酒和

尿布”的故事就是数据挖掘算法的经典案例。沃尔玛通过对啤酒和尿

布购买数据的分析，挖掘出以前未知的两者间的联系，并利用这种联

系，提升了商品的销量。亚马逊的推荐引擎和谷歌的广告系统都大量

使用了数据挖掘算法。

预测性分析能力是大数据分析最重要的应用领域。从大量复杂

的数据中挖掘出规律，建立起科学的事件模型，通过将新的数据带入

模型，就可以预测未来的事件走向。预测性分析能力常常被应用在金

融分析和科学研究领域，用于股票预测或气象预测等。

语义引擎是机器学习的成果之一。过去，计算机对用户输入内

容的理解仅仅停留在字符阶段，不能很好的理解输入内容的意思，因

此常常不能准确的了解用户的需求。通过对大量复杂的数据进行分

析，让计算机从中自我学习，可以使计算机能够尽量精确的了解用户

输入内容的意思，从而把握住用户的需求，提供更好的用户体验。苹

果的Siri和谷歌的Google Now都采用了语义引擎。

数据质量管理是大数据在企业领域的重要应用。为了保证大数

据分析结果的准确性，需要将大数据中不真实的数据剔除掉，保留最

准确的数据。这就需要建立有效的数据质量管理系统，分析收集到的

大量复杂的数据，挑选出真实有效的数据。

分布式计算（Distributed Computing）

对于如何处理大数据，计算机科学界有两大方向：第一个方向

是集中式计算，就是通过不断增加处理器的数量来增强单个计算机的

计算能力，从而提高处理数据的速度。第二个方向是分布式计算，就

是把一组计算机通过网络相互连接组成分散系统，然后将需要处理的

大量数据分散成多个部分，交由分散系统内的计算机组同时计算，最

后将这些计算结果合并得到最终的结果。尽管分散系统内的单个计算

机的计算能力不强，但是由于每个计算机只计算一部分数据，而且是

多台计算机同时计算，所以就分散系统而言，处理数据的速度会远高

于单个计算机。

过去，分布式计算理论比较复杂，技术实现比较困难，因此在

处理大数据方面，集中式计算一直是主流解决方案。IBM的大型机就

是集中式计算的典型硬件，很多银行和政府机构都用它处理大数据。

不过，对于当时的互联网公司来说，IBM的大型机的价格过于昂贵。

因此，互联网公司的把研究方向放在了可以使用在廉价计算机上的分

布式计算上。

服务器集群（Server Cluster）

服务器集群是一种提升服务器整体计算能力的解决方案。它是

由互相连接在一起的服务器群所组成的一个并行式或分布式系统。服

务器集群中的服务器运行同一个计算任务。因此，从外部看，这群服

务器表现为一台虚拟的服务器，对外提供统一的服务。

尽管单台服务器的运算能力有限，但是将成百上千的服务器组

成服务器集群后，整个系统就具备了强大的运算能力，可以支持大数

据分析的运算负荷。Google，Amazon，阿里巴巴的计算中心里的服

务器集群都达到了5000台服务器的规模。

大数据的技术基础：MapReduce、Google File System和BigTable

2003年到2004年间，Google发表了MapReduce、GFS（Google

File System）和BigTable三篇技术论文，提出了一套全新的分布式计

算理论。

MapReduce是分布式计算框架，GFS（Google File System）是

分布式文件系统，BigTable是基于Google File System的数据存储系

统，这三大组件组成了Google的分布式计算模型。

Google的分布式计算模型相比于传统的分布式计算模型有三

大优势：首先，它简化了传统的分布式计算理论，降低了技术实现的

难度，可以进行实际的应用。其次，它可以应用在廉价的计算设备上，

只需增加计算设备的数量就可以提升整体的计算能力，应用成本十分

低廉。最后，它被Google应用在Google的计算中心，取得了很好的

效果，有了实际应用的证明。

后来，各家互联网公司开始利用Google的分布式计算模型搭

建自己的分布式计算系统，Google的这三篇论文也就成为了大数据

时代的技术核心。

主流的三大分布式计算系统：Hadoop，Spark和Storm

由于Google没有开源Google分布式计算模型的技术实现，所

以其他互联网公司只能根据Google三篇技术论文中的相关原理，搭

建自己的分布式计算系统。

Yahoo的工程师Doug Cutting和Mike Cafarella在2005年合作

开发了分布式计算系统Hadoop。后来，Hadoop被贡献给了Apache

基金会，成为了Apache基金会的开源项目。Doug Cutting也成为

Apache基金会的主席，主持Hadoop的开发工作。

Hadoop采用MapReduce分布式计算框架，并根据GFS开发了

HDFS分布式文件系统，根据BigTable开发了HBase数据存储系统。

尽管和Google内部使用的分布式计算系统原理相同，但是Hadoop

在运算速度上依然达不到Google论文中的标准。

不过，Hadoop的开源特性使其成为分布式计算系统的事实上

的国际标准。Yahoo，Facebook，Amazon以及国内的百度，阿里巴巴

等众多互联网公司都以Hadoop为基础搭建自己的分布式计算系统。

Spark也是Apache基金会的开源项目，它由加州大学伯克利分

校的实验室开发，是另外一种重要的分布式计算系统。它在Hadoop

的基础上进行了一些架构上的改良。Spark与Hadoop最大的不同点

在于，Hadoop使用硬盘来存储数据，而Spark使用内存来存储数据，

因此Spark可以提供超过Hadoop100倍的运算速度。但是，由于内存

断电后会丢失数据，Spark不能用于处理需要长期保存的数据。

Storm是Twitter主推的分布式计算系统，它由BackType团队

开发，是Apache基金会的孵化项目。它在Hadoop的基础上提供了

实时运算的特性，可以实时的处理大数据流。不同于Hadoop和Spark，

Storm不进行数据的收集和存储工作，它直接通过网络实时的接受数

据并且实时的处理数据，然后直接通过网络实时的传回结果。

Hadoop，Spark和Storm是目前最重要的三大分布式计算系统，

Hadoop常用于离线的复杂的大数据处理，Spark常用于离线的快速的

大数据处理，而Storm常用于在线的实时的大数据处理。

本文标签：数据分布式计算分析服务器处理

版权声明：本文标题：大数据是什么意思内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1720773615a842186.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

便携式无线共享服务器,便携式无线上网的功能是什么？随身WiFi的特点是什么？ | 192.168.1.1手机登陆...

20小时前

随身WiFi的功能是什么？ 便携式WiFi可以建立移动无线局域网，连接互联网，提供一个或多个无线上网终端，方便移动办公，为国际航班

大话西游显示无法连接服务器,大话西游手游无法登陆怎么解决无法登陆原因及解决方案一览_3DM手游...

20小时前

在最近一段时间里，很多玩家在大话西游中突然发现无法登陆游戏，为什么会无法登陆游戏？这个问题有办法解决吗？下面小编就为大家介绍大话西游无法登陆的原因及解决

linux恢复安卓数据,安卓数据恢复2 - ranfs的个人空间 - OSCHINA - 中文开源技术交流社区...

19小时前

安卓数据恢复2 之前提供一种没有使用adb的方式，进行镜像的方法，存在两个问题，Quicksshd在有些手机上出现兼容性问题，在电脑上安装软件和操作还是

联想原装服务器有预装系统吗,预装Windows 8系统机型如何进行一键恢复

19小时前

操作步骤: 本文是预装Windows 8 系统一键恢复的操作步骤，测试采用使用GPT分区格式机型，供您需要时参考。重要提醒： 在您做一键恢复到出厂设置前&#xff0

安全模式下音频文件需要服务器是否有病毒,Win7安全模式下居然可以做这些事！...

18小时前

安全模式是Windows操作系统中的一种特殊模式，经常使用电脑的朋友肯定不会感到陌生，在安全模式下用户可以轻松地修复系统的一些错误，安全模式的工作原理是在不加载第三方设备驱动

服务器系统server读条后黑屏,电脑无法进入界面,Windows进度条读取完了就黑屏了...

17小时前

用系统盘启动，登录进恢复控制台，copy c:windowssystem32userinit.exe userinit32.exe 重新启动就可以正常登录了。原因是病毒把正常的userin

如何发布个人网站（入门全套，小白专用，Linux服务器）

15小时前

如何发布个人网站（包括发布到局域网和发布到全网） 写在前面：鉴于自己是个小白，下面的操作都是从实用性上讲的，可能有概念的错误&a

Linux系统重装出现c0409a9f,自学IT吧论坛Linux系统运营系列视频教程#28期2016系统服务器资源天地 -www.zxit8.com...

14小时前

0001-老学员学习方法心得分享说明9 Q) B4 d x. R# l 0002-oldboy运维26期学员侯同学-13k入职8 j" I4 p m$ Z9 A9 d ; f! O 0003-oldboy运维26期学员曹同学-年

服务器进入系统进度条蓝屏,电脑开机读完进度条之后就蓝屏

14小时前

公告： 为响应国家净网行动，部分内容已经删除，感谢读者理解。话题：电脑开机读完进度条之后就蓝屏,用模式和最后一次正回答：重装系统

【踩坑记录】搭建 RTX3090 深度学习服务器 (从系统重装到跑起DL)

14小时前

文章目录 1 重装 Linux 系统2 显卡驱动3 CUDA4 Anaconda5 PyTorch6 Jupyter Notebook7 碰到过的报错 1 重装 Linux 系统我选的是 Ubuntu 18。 Ubuntu 16 也行&

中科曙光服务器操作系统安装指南,中科曙光服务器培训教程汇总：操作系统异常情况处理.pptx...

14小时前

文档介绍： 操作系统异常情况处理孙龙祥·技术支持中心 ******sugon 目录 01 02 03 04 判断故障类型硬件相关工具 OS启动异常处理磁盘克隆方法与相关操作 05 网络相关 1.1 判断软硬件故障

amd支持服务器内存,AMD专用内存为什么只能在AMD平台使用？与普通内存有什么区别？...

13小时前

原标题：AMD专用内存为什么只能在AMD平台使用？与普通内存有什么区别？ 对于“AMD专用内存”，可能大家在选购内存条的时候都遇到过&#xff0

如何查看linux服务器是否为amd64架构还是x86_64架构

13小时前

前言环境：centos 7.9 我们在下载软件时，软件包后面通常带有amd64的字样，那么如何知道我们的服务器是不是amd64架构呢？ 下面的这

超微服务器怎么开虚拟化,amd服务器开启虚拟化（amd处理器开启虚拟化）

13小时前

cpu支持虚拟化技术。关键看主板是否支持了，进bios里面看下cpu configuration里是否有amd-v或secure virtual machine，改为enabled(开启)&

AMD EPYC 77637T8377137H127742 双路 8卡GPU服务器aleo

13小时前

CPU:AMD EPYC 776377137T837H127742 * 2内存：三星64GB DDR4 3200MHz ECC REG *32系统盘：500GB SSD显卡:RTX3080涡轮版或者3090涡轮版 * 8网卡：X

win10的ssh服务器开启及内网穿透到手机端

11小时前

远程开启电脑开启主板的LAN唤醒： 现在的主板一般都支持LAN唤醒，以华硕主板为例，开机按DEL键进入BIOS设置，进入【高级设置】里的【高级电源

【人工智能】人工智能、机器学习和数据工程 InfoQ 趋势报告 - 2021 年 8 月

9小时前

关键要点我们看到越来越多的公司使用深度学习算法。因此，我们将深度学习从创新者转移到了早期采用者类别。与此相关的是，深度学习存在新的挑战，例如在边缘设备上部署算法和训练非常大

服务器千兆网卡显示百兆,windows10系统查看网卡是千兆还是百兆的方法

7小时前

在电脑中，通常是配备有网卡，而如今很多新主板配备的都是千兆网络接口，以更好的满足未来大宽带用户需求，但是许多windows10系统想要查看自己的电脑网卡

wifi有信号无服务器,wifi有信号但上不了网怎么办

2小时前

我家的路由器有wifi信号，并且信号很好，但是不能够上网。也就是手机可以搜索到路由器的wifi信号，并且信号是满格的；但是手机、电脑连接wifi信号后

无线路由器服务器拒接,wifi被拒绝接入解决方法(图文)

2小时前

【导读】wifi被拒绝接入怎么办，下面就是路由器之家整理的网络知识百科，来看看吧！大家好，我是191路由器网小编，上述问题将由我为

电子爱好者 - 最新技术资讯及电子产品介绍！

大数据是什么意思

更多相关文章

便携式无线共享服务器,便携式无线上网的功能是什么？随身WiFi的特点是什么？ | 192.168.1.1手机登陆...

大话西游显示无法连接服务器,大话西游手游无法登陆怎么解决 无法登陆原因及解决方案一览_3DM手游...

linux恢复安卓数据,安卓数据恢复2 - ranfs的个人空间 - OSCHINA - 中文开源技术交流社区...

联想原装服务器有预装系统吗,预装Windows 8系统机型如何进行一键恢复

安全模式下音频文件需要服务器是否有病毒,Win7安全模式下居然可以做这些事！...

服务器系统server读条后黑屏,电脑无法进入界面,Windows进度条读取完了就黑屏了...

如何发布个人网站（入门全套，小白专用，Linux服务器）

Linux系统重装出现c0409a9f,自学IT吧论坛Linux系统运营系列视频教程#28期2016系统服务器资源天地 -www.zxit8.com...

服务器进入系统进度条蓝屏,电脑开机读完进度条之后就蓝屏

【踩坑记录】搭建 RTX3090 深度学习服务器 (从系统重装到跑起DL)

中科曙光服务器操作系统安装指南,中科曙光服务器培训教程汇总：操作系统异常情况处理.pptx...

amd支持服务器内存,AMD专用内存为什么只能在AMD平台使用？与普通内存有什么区别？...

如何查看linux服务器是否为amd64架构还是x86_64架构

超微服务器怎么开虚拟化,amd服务器开启虚拟化（amd处理器开启虚拟化）

AMD EPYC 77637T8377137H127742 双路 8卡GPU服务器aleo

win10的ssh服务器开启及内网穿透到手机端

【人工智能】人工智能、机器学习和数据工程 InfoQ 趋势报告 - 2021 年 8 月

服务器千兆网卡显示百兆,windows10系统查看网卡是千兆还是百兆的方法

wifi有信号 无服务器,wifi有信号但上不了网怎么办

无线路由器服务器拒接,wifi被拒绝接入解决方法(图文)

发表评论

推荐文章

HDU6095-Rikka with Competition

Win32 Disk Imager 使用后U盘恢复

chrome浏览器打开axure原型图的方法

无线路由器无线AP热点断网死机原因汇总（亲测）

IntelliJ IDEA 2018安装与破解

热门文章

蓝牙notify和indicate消息区别

台式机XP系统调节屏幕亮度

buuctf——（BJDCTF2020）BJD hamburger competition

ChatGPT transformer 5篇经典论文以及代码和解读

前端面试题之浏览器

郑州轻工业大学-校园网自动拨号解决方案

ifv播放器android 版,DVRIFV监控录象播放器(DVRPlayer)

设计模式--工厂模式

windows10离线安装net3.5

小米wifi驱动 linux驱动,Centos7-驱动小米WIFI做AP

最新文章

最新的裸机联想笔记本装win7系统SSD（固态硬盘）上安装win7系统联想K4450A i7装win7系统...

安装win7操作系统

被windows“折磨”了一个礼拜

固态硬盘的保养

win7开启硬盘AHCI

linux挂载 安装 fstab 详解

举步维艰——如何调试显示器点亮前的故障

黑苹果相关（说好的不折腾）

网吧网管必备电脑常识教程篇

mount不是很熟悉转载文章了解下 转自http:forum.ubuntu.org.cnviewtopic.php?f=120&amp;t=257333...

装系统心得

Java基础--异常、包、Eclipse介绍

硬件问题解决方法（大全）

win10的升级方法

安装win7系统是提示：windows安装程序无法将windows配置为在此计算机的硬件上运行...

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

大话西游显示无法连接服务器,大话西游手游无法登陆怎么解决无法登陆原因及解决方案一览_3DM手游...

wifi有信号无服务器,wifi有信号但上不了网怎么办

linux挂载安装 fstab 详解

mount不是很熟悉转载文章了解下转自http:forum.ubuntu.org.cnviewtopic.php?f=120&t=257333...

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载