中国制造2025背后的大数据作用

下一代的大数据体系——数据湖:

每个数据项都应有清楚的追踪,可追溯其源系统以及该数据项产生的时间等信息。2010年 JamesDixon以此理念,创造了数据湖(data Lake)这个术语,当时他打算将数据湖泊作为单一数据源来使用,而多数据源将形成“水景园”。尽管还是最初的构想,如今最普遍的应用是将数据湖泊当做许多数据源的结合。现有数据仓库在分析能力的缺失,业务对数据获取能力的提升,高级分析方法的创新是一种必然。

数据湖泊是近十年出现的术语,用来描述数据世界中,数据分析管道的重要组成部分。作为一个信息系统,数据湖泊是大型的基于对象的存储库,数据以其原始格式存储。通过全面的监控和分析,通过数据的分析模型的建立,学习,模拟,行动,最终实现内容认知的智能。 有并行体系以及无需移动数据即可对数据进行计算操作的明显特点。

特点 1 -数据湖泊是一个并行体系,能够存储大数据

数据湖泊的每个数据元素都有独特的标识符,并有一组扩展的元数据标签。

数据湖泊以数据源提供数据时的原格式(不论原格式是什么)存储原始数据。没有预设的数据模式,每个数据源都可以使用任何模式。由消费者根据自己的目的来理解数据。

特点 2 -数据湖体系无需移动数据即可对数据进行计算操作

通常数据仓库一方面要清理,一方面还要聚合数据,从而使分析更加容易。但科学家往往也反对这点,因为聚合意味着丢弃数据。你不知道今天或者几年以后哪些数据会有价值,所以数据湖泊应包含所有数据。数据湖泊使用平坦架构存储数据。这个理念是建立一个单一存储区,用来存储组织内任何人员可能需要分析的所有原始数据。通常人们使用Hadoop对湖泊内的数据进行各种操作,但这个概念比Hadoop要宽泛的多。

总结:

大数据技术自身在快速的发展,从1.0到大数据3.0的数据湖时代,我们要理性的看待大数据,在关注数据量的同时,应该更加重视数据分析的能力和方法。笔者认为,实用分析工具与先进分析理念,真正释放数字化分析的力量,由人类轨迹产生的数据,与机器自动产生的数据得出洞见,从管理决策推导运营方案,最终实现数据价值提升。

业界有很多大数据的技术公司提供不同的技术,其中也包含了一大堆的开源软件开发出来的。大数据的成长路径一定是个长期成长过程。在不同的阶段,来打造不同的IT能力,我们倡导的是开放式大数据架构。不仅仅为大的数据集服务,同时企业中业务人员有很多小数据集的分析和探索。在很好满足业务的不同需求下,大数据一定是一种混搭技术,利用现有的IT投资来达到整个回报的最大化。特别在中国智能制造2025的变革中,数据湖不会是数据仓库和BI平台的终结者,但数据湖一定是未来企业数据技术(DT)的核心纽带,成为引导中国制造2025变革的数字宠儿。