大数据2016年大事记

2016年刚刚过去,2017年已经来临。值此辞旧迎新之际,让我们盘点一下2016年大数据分析领域发生的大事件,摸清过去一年的脉搏,展望未来一年的趋势。

记事

至少可以说,2016年是大数据风起云涌的一年。没人知道2017年将发生什么,但这不会阻止我们对新的一年作出各种预测。以下是最具有轰动效应的一些项目、事件和趋势,它们使2016年成为了大数据年。

商业智能(BI)领袖衰落

2016年2月,红极一时的BI和可视化工具提供商Tableau发布财报,业绩令人大失所望,其市值在一天之内被腰斩。这预示着2016年的BI市场将动荡不安。几个月后,风暴再起,Qlik Technologies的股价暴跌一半多,在2016年6月被Thoma Bravo以大约30亿美元的价格收购。

虽然Tableau和Qlik一直都是一流的工具,但它们曾经一马当先的领先距离已经大幅缩小,因为微软(Microsoft)、Microstrategy、Alteryx、Birst、Domo、Sisense、Gooddata和其他公司纷纷推出了价格更低、性能强大的BI工具。市场调研公司Gartner的《2016年BI和分析平台魔力象限》报告记录了不少于24家公司(其中甚至还没加上BI新星Zoomdata)。Gartner表示,BI市场已经达到“临界点,需要我们从新的角度来思考”。

人工智能(AI)崛起

谷歌(Google)旗下的DeepMind公司开发了AlphaGo系统,在围棋比赛中战胜人类顶尖棋手。按照英伟达(Nvidia)一位产品经理的话说,这场人机大战堪称AI技术的“宇宙大爆炸”时刻。从Siri和Alexa等AI驱动的聊天机器人,到自动驾驶汽车,无数消费者渐渐意识到AI带来的巨大好处。

我们也看到了新的AI服务面世,包括2016年11月互联网巨头亚马逊(Amazon)在AWS re:Invent大会上发布的Amazon AI。2016年10月,加州大学伯克利分校宣布,曾经发明Apache Spark等多项大数据技术的AMPLab实验室将被替换为RISELab实验室,后者将致力于AI和自动驾驶汽车等应用。这为AI正在吞没和超越大数据概念的想法提供了更多佐证。

Hadoop十岁了

2016年1月底的一天是首个Hadoop生产集群在雅虎(Yahoo)诞生的十周年纪念日。雅虎工程师们最初只希望这个10节点的集群能够持续运行一整天,根本没想到Hadoop后来会成为大数据计算的代表,每家财富100强企业必备的IT工具。

Hadoop的成功无疑超出了道格·卡丁(Doug Cutting)的期望,这位Cloudera公司架构师和迈克·加法雷拉(Mike Cafarella)共同创造了Hadoop。在Strata + Hadoop World大会上一场广泛性的演讲中,卡丁说出了自己内心的疑惑:我们是否已经达到了“Hadoop顶峰”?未来十年的Hadoop会是什么样子?考虑到大数据界对Hadoop第三版(将使存储能力翻倍并引入纠删码)的开发兴趣寥寥,大数据技术又发展神速,因此很难说2026年的Hadoop会是什么样子,或者没什么变化也说不定。

Apache Spark大行其道

作为经济实惠的分布式计算开源框架,Hadoop无疑引起了技术人士的关注,他们以前使用昂贵的专有软件来处理庞大的数据集,费钱又费力。但如果说Hadoop的Java明星光环已经开始淡去,那么正在取代它的则是另一项可能更有前途的技术,那就是Apache Spark。

Apache Spark在大数据阶梯上的极速蹿升是一个非常值得注意的现象,不仅IBM等大公司纷纷拥抱该技术,而且几乎所有的BI和可视化工具提供商都使用这项基于内存的技术来进行批处理、交互处理和流处理。有些人认为,Spark在应用和受欢迎程度方面终将超越Hadoop,甚至已经超越。

Flink和Beam诞生

Spark基本上已经取代了Hadoop的批处理引擎MapReduce,更别说Spark的SQL、机器学习和流处理能力。但永不满足的大数据界希望改进这套得到Databricks公司支持、用Scala语言编写的多用途框架。于是Apache Flink和Apache Beam应运而生,成为了Spark在大数据框架之战中的劲敌。

2016年3月,Cloudera公司的卡丁向Data Artisans公司的Flink项目表达了敬意。当时他说:“Flink在架构设计上可能要比Spark好上那么一点点。”与此同时,基于谷歌Cloud Dataflow API的Apache Beam受到了Talend公司一位法国大数据架构师的支持。Beam雄心勃勃,想要用同一组API统一所有的大数据应用开发,并通过“Runner”这种执行引擎支持Spark、Flink和Google Dataflow。

历史性的民调失灵