VMware扩展大数据—试图虚拟化Hadoop

VMware宣布,将允 许用vSphere来管理Hadoop集群。这样一来,成千上万的VMware企业客户将能够使用他们已经熟悉的软件来控制Hadoop部署。从技术方面 说,这提高了该公司在虚拟化基础设施运行Hadoop节点的水平,同时将虚拟化的优势带到了大数据平台。 

VMware日前推出了VMware vSphere Big Data Extensions(大数据扩展),这将允许该公司广受欢迎的基础设施 管理软件来控制企业客户建立的Hadoop集群。该扩展仍然需要一个基础Hadoop平台,HortonWorks、MapR、Cloudera或者 VMware的合作伙伴Pivotal都基于这个开源Apache代码来分配。这个大数据扩展允许这些分配任务通过vSphere来管理。 Taneja Group高级分析师Michael Matchett表示:“VMware让企业能够托管他们自己的大数据即服务。” 

VMware通过其Serengeti项目这些功能,该项目的目标是优化Hadoop集群以在虚拟化基础设施上运行。Matchett表示,这是该 项目迈出的非常重要的一步。在虚拟机上运行Hadoop节点,而不是在裸机上运行,带来了与虚拟化计算服务器相同的优势:更有效地使用硬件资源以及更灵活 地管理系统。Matchett表示:“你可以在虚拟环境中托管Hadoop,因为这将让你能够混合其他工作负载,并且跨多个客户端利用基础设施的优 势。” 

其他公司也在试图虚拟化Hadoop集群。亚马逊云计算服务提供的Elastic Map Reduce(EMR)产品,基本上是类似Hadoop的公共云服务。而VMware主要是针对私有云和客户端部署。

为vSphere增加支持也可能预示着VMware的其他举措。例如,VMware可能扩展该平台以允许使用该公司即将推出的公共云产品(预计今年 晚些时候推出)来轻松地迁移vSphere管理的Hadoop工作负载。其他公司(特别是微软)也将允许通过自己的管理软件来控制Hadoop发行版。 

VMware推出的这些新功能是公开测试版的一部分,客户本周可以使用vSphere 5.1来报名参加公测,预计这些功能将在年底正式推出。除了 宣布这个扩展外,VMware表示Serengeti项目支持Apache Hadoop的最新开源代码,包括新的YARN功能,Hadoop社区的一些 人认为这个资源管理器可能带来更多基于Hadoop平台的新的应用程序。