Hadoop没有消亡,它是大数据的未来

人认为 Hadoop 正在失败,但硅谷数据管理公司 Hortonworks 的总经理 Vamsi K. Chemitiganti 并不这么看,为了反驳此前一篇文章《为什么 Hadoop 正在消亡?(Why Hadoop is Failing)》的观点,他在自己的博客上写了一篇论述自己看法的文章,他认为达尔文式的开源生态系统正在确保 Hadoop 成为稳固和成熟的技术平台。

「女士,那么刚出生的孩子能干什么?」——迈克尔·法拉第,在 18 世纪被问及新发明的电有什么用的时候。

为什么 Hadoop 正在发展壮大

过去两年来,我一直致力于大数据方面的研究,并在这段时间里经历了令人感到震撼的变革,因为我一直在全球各地为银行业的领导者们提供咨询服务。

这也是为什么当近期 KDnuggets 出现了一篇挑衅性质的《为什么 Hadoop 正在消亡》时,我必须站出来反对了。在那篇文章中,作者的讨论具有建设性,但问题在于其讨论基于一些毫无根据的假设。在深入研究之前,我们要考虑其中的背景。

公司业务中数字架构的出现意味着公司能够与全球客户/消费者/病人持续地在线互动。其目的并不仅仅是为了提供友好的可视化内容,而是为了提供跨渠道,多类型的个性化服务。移动应用首先迫使企业将服务形式升级为与消费者在多渠道中展开沟通。例如银行业,所有银行现在都涵盖了四到五种服务方式:移动 app、电子银行、呼叫中心、快捷银行等。医疗保健业有希望成为下一个改变面貌的行业,护理人员已经开始采用 iPad 来协助诊断,存储和处理患者的药物和疾病数据。大数据技术的发展是为了克服以往方法(RDBMS 和 EDW)的局限性,解决在数字应用堆栈中数据架构和分析的挑战。

这些挑战包括:

数据体量扩大的挑战。公司数据种类的飞速膨胀。Hadoop 显然也有自己的限制——例如支持低延迟 BI(Business Intelligence,商业智能)查询的能力。但是 Hadoop 之前的方法显然有更多的缺陷,它们无法处理和管理大量数据,从而为数字架构的业务带来了两大挑战。第一个挑战是在企业数据流架构中实时提供洞见;第二个挑战是进行进一步分析的能力:快速进行预测分析和深度学习(经常需要每秒处理百万条信息),从而能够跨领域解决复杂问题。Hadoop 是唯一能让这些挑战化为有效商业机会的方式。

达尔文式的开源生态系统正在确保 Hadoop 成为稳固和成熟的技术平台。

目前的绝大多数 Hadoop 大数据项目(超过 25 个)都依靠开源社区在 Apache 生态系统中孵化、开发和维护。开源社区本质上是达尔文式的。它专注于代码质量和行业应用,依赖于路线图和提交者的正确性,如果一个项目缺乏这些,那它会很快走进坟墓。换句话说,生态系统中没有落后者的位置。

让我们看看那篇文章中作者的主要假设吧。

假设 1:Hadoop 采用不再增长,最多持平

我日常工作中的最重要的部分是与多个客户合作探讨他们的业务计划以及寻找应用技术来解决这些复杂难题的方法。我可以证明最大企业对 Hadoop 的采用绝对没有停滞不前。尽管我的观点肯定是道听途说,而且不是来自于企业内部的内幕,但在银行业、电信业、制造业和保险业,Hadoop 的采用却实实在在地在飞涨。在早期就与领先的供应商合作的企业已经或多或少找到了将这项技术应用于它们的业务难题的好方法。采用 Hadoop 的模式正在成熟,而且它们也正在意识到其中巨大的商业价值。一家领先的供应商 Hortonworks 在实现 1 亿美元年收入的道路上比其它任何科技创业公司都跑得快——这是该领域潜力的有力证明。Cloudera 刚刚已经上市。在见证着这样的增长的同时,我们也看到领先的 EDW 供应商的收入和股价却略有下跌。我预计,未来 5-7 年内就会出现第一家年收入达到 10 亿美元的大数据「创业公司」,与备受尊敬的开源先驱 Red Hat 相比还多少快一点。至少,Hadoop 项目能帮助企业从昂贵和不灵活的企业数据仓库项目上节省成百上千万美元。几乎所有组织都已经开始部署 Hadoop,以作为它们的企业登陆区(ELZ:Enterprise Landing Zone),从而增强它们的 EDW。

假设 2:使用 Hadoop 创造的项目的商业价值不明显

该作者在这方面还有点道理,但让我解释一下为什么这是组织机构所面临的难题,而实际上并不是任何技术堆栈(中间件或云或大数据)的过错。这个难题在于:寻找大数据项目的商业价值往往是一个精细活,涉及到整个复杂的组织结构。IT 部分当然可以将 POC(概念验证)作为一门科学或一项「一次性简历构建」项目而开始,但其业务线需要从一开始就参与进来,比其它任务技术类别都早。大数据并不是关于存储大量数据的基础设施的施工,而是关于如何在收集和策划的数据上创造业务分析。不管这些分析是简单而老套的商业智能(BI),还是数据科学导向的,它们都依赖于一个组织本身的文化和创新。