什么是大数据?你需要知道的…..

决策支持系统一般由交互语言系统、问题系统以及数据库、模型库、方法库、知识库管理系统组成。在某些具体的决策支持系统中,也可以没有单独的知识库及其管理系统,但模型库和方法库通常则是必须的。由于应用领域和研究方法不同,导致决策支持系统的结构有多种形式。     

决策支持系统强调的是对管理决策的支持,而不是决策的自动化,它所支持的决策可以是任何管理层次上的,如战略级、战术级或执行级的决策。  

但是,不要认为大数据会使数据仓库过时。大数据系统可以让您在很大程度上处理非结构化数据,但是所得到的查询结果与数据仓库的复杂程度是不一样的。毕竟,数据仓库是为了深入数据而设计的,它之所以能够做到这一点,是因为它已经将所有数据转换成一种一致的格式,让您可以像构建立方体一样进行深入查询。  

多年来,数据仓库供应商一直在优化他们的查询引擎,以回答典型的业务环境问题。大数据可以让你从更多的数据源中获取更多的数据,但分辨率要低一些。因此,在未来一段时间内,我们将与传统的数据仓库一起并存。  

  3.技术突破大数据背后  

为了完成大数据量,品种,非破坏性使用和速度的四个方面,包括分布式文件系统(hadoop)的开发,一种意识到不同数据的方法(Google的Map、Reduce以及最近的Apache Spark),以及云/互联网基础设施,用于根据需要访问和移动数据。  

直到大约十几年前,在任何一个时间都不可能操纵比较少的数据。(嗯,我们都认为数据仓库当时是巨大的,随着互联网的产生和连接的数据到处都是这样的背景)。对数据存储的数量和位置的限制、计算能力以及处理来自多个数据源的不同数据格式的能力使得这项任务几乎不可能完成。    

然后,在2003年左右的时间里,Google的研究人员开发了Map、Reduce。 这种编程技术通过首先将数据映射到一系列键/值对来简化处理大数据集,然后对类似的键执行计算以将它们减少到单个值,以数百或数千个低位并行处理每个数据块 成型机。 这种巨大的并行性允许Google从越来越大量的数据中产生更快的搜索结果。  

在2003年,Google创造了两个突破,使得大数据成为可能:一个是Hadoop,它由两个关键服务组成:    

· 使用Hadoop分布式文件系统(HDFS)可靠的数据存储  

· 使用称为Map、Reduce的技术进行高性能并行数据处理。     Hadoop运行在商品,无共享服务器的集合上。 您可以随意添加或删除Hadoop集群中的服务器; 系统检测并补偿任何服务器上的硬件或系统问题。 换句话说,Hadoop是自我修复的。 尽管发生系统更改或故障,它可以提供数据并运行大规模,高性能的处理作业。  

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。  

Hadoop的框架最核心的设计就是:HDFS和Map、Reduce。HDFS为海量的数据提供了存储,则Map、Reduce为海量的数据提供了计算。    

· 尽管Hadoop为数据存储和并行处理提供了一个平台,但实际价值来自于该技术的附加组件,交叉集成和自定义实现。 为此,Hadoop提供的子项目为平台增加了功能和新功能:     · Hadoop Common:支持其他Hadoop子项目的常用工具。  

· Chukwa:用于管理大型分布式系统的数据收集系统。    

· HBase:可扩展的分布式数据库,支持大型表格的结构化数据存储。  

· HDFS:分布式系统,可提供对应用程序数据的高吞吐量访问。

· 蜂巢:提供数据汇总和即席查询的数据仓库基础设施。  

· Map/Reduce:用于在计算集群上分布式处理大型数据集的软件框架。

· pig:并行计算的高级数据语言和执行框架。  

· ZooKeeper:分布式应用程序的高性能协调服务。  

Hadoop平台的大多数实施方案至少包括这些子项目中的一些,因为它们通常是开发大数据所必需的。 例如,大多数组织选择使用HDFS作为主分布式文件系统,将HBase用作数据库,可以存储数十亿行的数据。 并且使用Map/Reduce或更新近的Spark几乎是给定的,因为它们为Hadoop平台带来了速度和灵活性。