顶级Hadoop发行版的四个对比因素

通过检查顶级的Hadoop发行版的关键特征,你可以决定哪些订阅适合你的组织。

虽然软件组件构成的Hadoop生态系统堆栈是开源技术,但是采用付费订阅使用其供应商的商业Hadoop平台会为企业带来许多好处。例如,订阅可以提供技术支持和培训,以及访问那些不提供给开源社区的企业功能。而供应商的Hadoop的企业版提供了Hadoop生态系统协议堆栈的核心部件,主要区别是这些厂商提供超越公开访问的功能。

最近市场的变化已经使Hadoop厂商行列减少。就在本月,例如,PivotalSoftware公司终止了自己的Hadoop产品分布,并表示将开始代理销售Hortonworks公司的产品。但仍有一些不同的供应商来考虑,包括独立的Hadoop专家,云计算提供商,以及两家最大的IT供应商。

为了帮助你确定哪些Hadoop产品适合你的组织,本文根据几个关键特性区分Hadoop发行版,这其中包括部署模式,企业级功能,安全性和数据保护功能和支持服务。

注意,虽然Hadoop大数据管理的生态系统被设计成为支持可扩展的数据存储和高性能分布式计算,其实际的性能可能有几个原因,其包括软件实现。但许多性能问题依赖于计划应用程序本身。为了解决这个问题,我们将进一步研究Hadoop的产品分布将如何有针对性地满足用户组织的业务需求。

1.Hadoop的部署模型

大多数Hadoop厂商支持混合部署的方法,但是只有来自微软和亚马逊网络服务公司(AWS)的Hadoop产品在云环境完全部署。微软公司运行在Azure云基础设施的Hadoop产品名为HDInsight,是一个基于Hortonworks数据平台(HDP)托管服务,这与Pivotal公司代理销售Hadoop版本相同。AWS公司使用亚马逊弹性云计算平台,支持AmazonElasticMapReduce(EMR)的S3数据存储,其Hadoop发布版捆绑了其他各种工具和技术。此外,亚马逊EMR还提供使用MAPR的Hadoop发行版,这并不是亚马逊公司自己的产品。

云部署模型提供了一个快速而省力的方式来配置Hadoop集群,微软和AWS都使用户能够调整需求他们的环境来处理动态计算和存储能力的需求。这种弹性可以满足理想的组织对计算和存储的需求,可能会随时间变化。

而其他主要的Hadoop厂商,例如Cloudera,Hortonworks,IBM和MAPR都提供了基于云的部署,他们并不局限于这一模式。它们允许用户下载,可以在本地或私有云部署在各种服务器,包括Linux和Windows系统的版本。此外,Cloudera公司和MAPR公司还提供了可以运行在虚拟环境中的沙箱版本,例如VMware。

底线:考虑你的组织是否更倾向于管理其内部的大数据环境或使用托管服务。在内部管理监督意味着软件环境的维护和系统的连续监测,即环境是否对处所的物理平台或使用基于云的服务安置。如果你有经验丰富的工作人员,并知道适当的系统大小特征,或者如果安全问题权证管理一个可信的防火墙背后的系统,其内部部署选项可能是可取的。

另一种方法是使用一个供应商提供的服务平台,这将有助于配置,启动,管理和监控你的操作。如果你不知道你需要什么规模的系统,或期望系统规模将增长基础上的需求不断增加,这可能是可取的。而使用云计算和托管服务工作的好处是,它会为存储和处理资源提供必要的弹性。

2.顶端的Hadoop发行版的企业级功能

三个独立的Hadoop供应商的开发方法有一些明显的差异。Cloudera公司往往增强了Hadoop的核心与内部开发的插件技术,例如,基于Hadoop的ImpalaSQL查询引擎;Cloudera的Manager管理工具;以及Kudu,这是在Hadoop分布式文件系统(HDFS)运行的另一个用于实时分析数据存储应用。通常,企业在进行初步开发工作后会开放源代码等技术。另一方面,Hortonworks公司促进其在ApacheHadoop社区软件的100%创新,并没有专有扩展。

再加上其附加技术,如从开源项目一开始推出的Ambari配置和管理软件。另外,Hortonworks公司已经与IBM等公司联合起来,形成开放式数据平台计划(ODPi),致力于建立一个共同的核心技术规范的Hadoop平台的组织。ODPi成员声称,这将提高互操作性,并减少供应商的锁定。

MAPR公司开发了自己的文件系统MAPR-FS,而没有使用HDFS,另外也开发了自己的NoSQL数据库MAPR-DB和其它基础技术,为了支持大型集群部署企业级的性能等基础技术的需求,MapR也越来越注重实时流处理应用。该公司在2015年底将其产品为MAPR融合数据平台,其结合了MAPRHadoop文件系统和数据库和ApacheSpark处理引擎,以及实施批处理和实时任务的称之为MAPR流的新事件流的技术。