Hadoop之父Doug Cutting眼中大数据技术的未来

截至到2005年,谷歌公司(Google)引领的这种新型Nutch系统已经被我们应用于20到40个计算机集群中。但是,如果仅仅依靠几个人利用业余时间来开发这款软件,那么可能需要耗费很多年的时间才能让该足够稳定且可靠。此外该软件需要在数以千计的计算机集群上进行测试和调试,但是他们没有足够的计算机集群来完成这一工作。

2006年,我在雅虎公司(Yahoo!)给一些伙计们谈论了有关Nutch的信息,并且得知大家对这种软件存在巨大的需求。同时,我们也有一支熟练的工程师队伍在进行这项工作,并且部署了大量的硬件。

于是,在2006年1月,我加入到了雅虎公司(Yahoo!)。此后不久将Nutch中的分布式文件系统和MapReduce软件分隔开来形成了一个新的项目,即“Hadoop”,这是以我的儿子的毛绒大象玩具而命名的。由于新加入了十几名雅虎公司(Yahoo!)的工程师以及配置了数千台电脑,取得了飞速的进展。截止到2007年,我们构建了一个相对稳定的、可靠的系统,可以使用经济实惠的商用硬件处理数千兆字节(PB)的数据。

Hadoop彻底地改变了整个行业的格局。开发人员可以更快、更轻松地构建更好的广告方式、拼写检查、页面布局等等。此外,越来越多的非雅虎公司(Yahoo!)的用户也开始部署Hadoop,例如Facebook、Twitter和LinkedIn等公司。在Hadoop之上也很快建立了其他项目,例如Apache Pig、Apache Hive、Apache HBase等等。同时,学术研究人员也开始使用Hadoop。这样就已经达到了我们最初设想的目标:即构建一个能够轻松方便、经济实惠地存储和分析大量数据的非常流行的开源项目。

随后一些风险投资商说该软件可能除了网络和学术界之外还有更大用途。但是有人认为银行、保险公司和铁路公司可能永远也不会运行这种开源的“黑客式”软件。风险投资商依然坚持他们的观点,并在2008年筹建了Cloudera,这是业界第一家明确使命为将Hadoop和相关技术引入传统企业的公司。

一年以后,在2009年,我开始意识到这种可能性。如果可以让世界500强企业开始采用Hadoop的话,那么很可能就会改变他们的业务模式。随着公司逐渐采取更多的技术,从网站和呼叫中心到现金出纳机和条码扫描器,他们的手指尖将会传递越来越多的关于他们企业的数据。如果企业机构能够采集和使用更多的数据,那么将可以更好地了解和改善他们的业务。传统的基于关系数据库管理系统(RDBMS)的技术存在以下弱点:在支持可变、凌乱的数据和快速实验方面显得太过死板;无法轻易扩展到支撑PB级数据;并且成本非常昂贵。与此相比,即使是很小的Hadoop集群也可以允许公司提出和回答比以前更复杂的问题,并且可以不断地学习和提高。最后,我加入了Cloudera公司。

现况与展望

现在,七年后,Hadoop及其开启的潮流已经在主流企业中发挥了非常有价值的作用。

我们在多个方面正处于大变革的时代。目前,传统的企业式关系数据库管理系统(RDBMS)软件面临着开源的大数据软件这个竞争对手。出乎意料但是非常让人惊喜的是,黑客式和企业式软件传统之间的差异已不再明显,并且两者之间已经出现了融合。同时,软件的开发者和使用者之间也没有了有严格的划分。

Hadoop生态系统中没有任何一个单一的软件组件占主导地位。Hadoop也许是最古老和最成功的组件,但是每年都会引入新的、改进的技术。新型的执行引擎(例如Apache Spark)和新型的存储系统(例如Apache Kudu(正在孵化中))表明,这种软件生态系统的发展非常迅速,且不存在任何中心控制点。用户也可以更快的获得更好的软件产品。

该软件不仅更实惠,可扩展,而且提供了更好的风格。企业机构不仅可以探索混乱的、多样化的数据源,开展实验,而且可以迅速地开发和改进应用程序。我们可以综合利用源于传感器、社交媒体和生产过程的数据来进行更深入的分析,制定明智的决策以及推出新的产品。包括Cloudera在内的公司都在不断地推动该软件的完善,确保其满足各行业的需求,使之更稳定、更可靠、更易管理、更安全,并且可以与现有系统轻松地集成在一起。

当前,政府和行业本身也正在转型。不仅是优步(Uber)和特斯拉(Tesla)之类的新兴公司正在使用数据来重新塑造自己的行业,卡特彼勒公司(Caterpillar)和雪佛龙公司(Chevron)等老字号品牌也正在通过数据技术极大地提升自身。我们将在本世纪获得的绝大部分的技术进步都将源于我们对所生成数据的深刻了解。