admin管理员组

文章数量:1547087

一、 什么是大数据?

大数据是无法使用传统计算技术处理的大型数据集的集合。它不是单一的技术或工具,而是已成为一个完整的主题,涉及各种工具,技术和框架。

全球数据的90%是在最近十年中产生的。

1.1 大数据的好处

  • 利用像微信这样的社交网络中保存的信息,营销机构正在了解有关其活动,促销和其他广告媒介的响应。
  • 产品公司和零售组织利用社交媒体中的信息(如消费者的喜好和产品认知度)来计划生产。
  • 利用有关患者先前病史的数据,医院将提供更好,更快捷的服务。

1.2 大数据的5个V

IBM提出了大数据的5V个特点:
Volume:数据量大,采集规模、存储规模和计算规模都非常大,一般以TB或者PB作为计量单位。
Variety:数据类型繁多,具体体现在结构化,半结构化与非结构化等种类,如日志,音频,视频,图片,地理信息等。
Velocity:处理速度快,数据产生和处理的速度快,时效性高;
Value:价值密度低,在海量信息中,真正有价值的信息很少。如何通过数据挖掘手段,在垃圾中发现黄金,是大数据需要处理的问题;
Veracity:真实性,全量数据反映了事物的客观性与真实性。

1.3 大数据之下是什么?

大数据涉及不同设备和应用程序产生的数据。以下是大数据领域的一些领域。

  • 黑匣子数据 - 它是直升机,飞机和喷气式飞机等的组成部分。它捕获飞行机组人员的声音,麦克风和耳机的录音以及飞机的性能信息。
  • 社交媒体数据 - 诸如Facebook和Twitter,微信之类的社交媒体拥有信息以及全球数百万人发布的观点。
  • 证券交易所数据 -证券交易所数据包含有关客户在不同公司股份中做出的“购买”和“出售”决策的信息。
  • 电网数据 -电网数据保存特定节点相对于基站消耗的信息。
  • 运输数据 -运输数据包括车辆的型号,容量,距离和可用性。
  • 搜索引擎数据 -搜索引擎从不同的数据库中检索大量数据。

因此,大数据包括海量,高速和可扩展的各种数据。其中的数据将分为三种类型。

  • 结构化数据-关系数据。
  • 半结构化数据-XML数据。
  • 非结构化数据-Word,PDF,文本,媒体日志。

二、大数据的前世今生

源起:Google2004年发表了3篇论文(三驾马车),分别是分布式文件系统GFS, 大数据分布式计算框架MapReduce和NoSQL数据库系统BigTable。

搜索引擎最要做两件事情,一个是网页抓取,一个是索引构建。这个过程中,需要存储和计算大量的数据

Ya

本文标签: 开发工具详解前世今生路线