下一代Hadoop战略——数据即平台

导读:在上周的Strata大会上,与会者透露出有关下代Hadoop的消息。包括对6000节点的支持、配备高可用性的HDFS以及下一代MapReduce的特性等。而未来Hadoop替代操作系统的大胆想法也让我们充满无限遐想。

在上周的Strata大会上透露出一些有关下代Hadoop的消息。正如你听到的,相比于之前最新版的Hadoop将比以任何时候都发生更大的变化。被神秘炒作的关于大小以及速度的新特性将会从根本上改变Hadoop的使用方式。

在Strata会议上Hortonworks创始人和Apache Hadoop项目VP Arun Murthy透露新版Hadoop的相关特性。下一代的Hadoop将支持6000节点,同时配备高可用性的HDFS(Hadoop Distributed File System)。

而下一代MapReduce框架则被命名为YARN或MRv2(MapReduce version 2)。新框架已经不再是传统的MapReduce框架,甚至与MapReduce无关,YARN可被看做是通用的运行时框架,用户可以编写自己的计算框架,在该运行环境中运行。经过改良的MapReduce将分离HDFS中块和命名空间的管理,提高数据的可伸缩性。最重要的是改良后的MapReduce将对非MapReduce应用进行支持,这使得更多类型应用将具备在MapReduce工作的能力。

在新的YARN框架下,JobTracker将具备两个重要的功能——资源管理以及任务调度/监视,并把它们分成独立的进程。同时具备全局的RM(ResourceManager)和AM(ApplicationMaster)。

ResourceManager与NodeManager共同组成整个数据计算框架。同时ResourceManager是系统中将资源分配给各个应用的最终决策者。ApplicationMaster实际上是一个具体的框架库,ApplicationMaster主要负责同调度器协商以获取合适的容器,并跟踪这些容器的状态和监控其进度。

Hadoop为企业扩大基础设施提供了理由,同时Hadoop也是构建数据驱动的企业以及SaaS应用巨大的潜力。未来如果应用框架足够健壮,将会有大量的开发人员在Hadoop平台开发应用。但Hadoop没有取代底层的操作系统的意向,相反Hadoop将作为操作系统与应用之间的一层。

而另外一种大胆的设想是未来Hadoop应用程序框架和文件系统可扩展到裸机或其它外设,并有效地成为一个完全面向数据的操作系统。尽管这还有很长的路要走。(李智/编译)