企业巨鳄竞相涌入Hadoop怀抱:数据为王

据2011 TDWI的一份调查,目前34%的企业通过大数据分析来制定决策。Amazon、Cloudera和IBM都发布了它们的Hadoop-as-a-Service产品,Microsoft的类似产品也将在明年问世。由此可见,大数据和Hadoop的发展势头越演越烈,未来也会变得越来越重要。

 

  早在2009年,Amazon就推出了AWS Elastic MapReduce,支持在EC2和S3上运行Apache Hadoop。该服务提供了大数据分析所需的最基本的硬件和软件。

  时隔不久, Cloudera推波助澜,发布了CDH3。这是基于Amazon的MapReduce上,经过调优后的Hadoop AMI。由于CDH3集成了大量的附加软件,所以可以用来处理Hadoop任务。

  而迄今为止,最为成熟的解决方案的桂冠当属IBM,IBM推出了基于Watson技术的InfoSphere BigInsights软件,它可以在SmartCloud Enterprise上运行Hadoop。这并不仅仅是一个运行大数据任务的平台,还同时提供了分析数据的能力。这是处理问题过程中最为复杂的部分之一。它还包含以下多种开源项目:

  •   Jaql:基于JavaScript Object Notation(JSON)的高级查询语言,它也支持SQL。
  •   Hive:用于支持Hadoop文件的批量查询和分析的数据仓库基础设施。
  •   HBase:用于在Hadoop中支持大型稀疏表的列存储数据环境。
  •   Flume:收集数据并将其加载到Hadoop中的设施。

  最近在PASS Summit 2011上,微软这个软件巨头也向Hadoop敞开了怀抱。微软宣布将从鼻祖雅虎分拆出来的Hortonworks合作开发,在Apache Hadoop上实现搭建Windows Server以及Windows Azure平台,期待在 SQL Server 2012 中集成开源的 Apache Hadoop,从而提供大数据处理功能。为了让Apache Hadoop 成为存储和处理数据的引人注目的平台,微软计划在2011年末提供基于 Azure 的 Hadoop 服务,并在2012年的某个时间提供基于 Windows 的分布式服务。

  EMC及Intel、Mellanox Technologies、Micron、Seagate、SuperMicro、Switch和VMware这些合作伙伴一同推出了另一个解决方案EMC Greenplum Analytics Workbench,它提供了一个超过10000虚拟节点和24 PB存储容量的平台,主要用于测试Hadoop。

  在拉斯维加斯举办的IOD2011大会上,DataMeer公司展示了该公司基于Hadoop平台的产品方案DAS。“很多公司也推出了基于Hadoop的产品,但他们都需要一个连接器(Connector),而用我们公司的方案可以直接体验Hadoop架构的高效便捷。” DataMeer公司业务发展总监常悦表示。

  总之,各大巨头在Hadoop方面的投资都非常活跃,呈现遍地开花的形式。而以Hadoop为标杆的大规模数据处理(BigData Processing)技术的日趋成熟,使得企业由“业务为王”纷纷转向“数据为王”转变。