Hadoop生态系统在壮大:十大炫酷大数据项目

在开发人员开发Hadoop以克服大数据带来的挑战之后的10年间,这些技术的生态系统在不断发展壮大。Apache软件基金会下面有众多的开源大数据技术项目。本文介绍一些重要项目,并顺便了解几个新兴项目。

Hadoop生态系统在壮大:十大炫酷大数据项目

管理和分析大数据已经变成了重大挑战,数量急剧增加的信息从社交媒体、连接到物联网中“物件”的传感器、结构化数据、非结构化数据以及可以收集的其他一切数据收集而来。为了应对这项任务,开发人员已开发了一系列新的开源技术。

旗舰软件Apache Hadoop是Apache软件基金会的一个项目,它在上个月迎来了十周年。这十年已发生了很大的变化。如今,另外许多技术也是大数据和Hadoop生态系统的一员,它们大多数都归属Apache软件基金会。

开发人员和企业组织在使用诸多项目,开发大数据技术,并将它们捐献给开源社区,以便进一步发展和采用,其中就包括Spark、Hive、HBase和Storm。

在网飞和领英等一些企业,其中一些技术已用于生产环境。它们让企业组织能够实时处理海量数据,并转换那些数据,为最终客户改善服务。

这些大数据技术常常脱胎于试图改善大数据技术的工作方式、加快处理速度的企业组织。它们代表了生态系统的演变之路和下一波开源技术,这证明明智的参与者组成的社区取得的发展胜过专有企业环境里面的发展。

当前的开源和大数据时代完全始于Hadoop,它常常被誉为是一种面向分布式存储的开源框架,用于在大众化硬件上处理庞大数据集。

Hadoop发行版公司Hortonworks的企业战略副总裁Shaun Connolly在接受采访时告诉《信息周刊》杂志:“作为一种新兴的数据架构,Hadoop成为备受瞩目的中心。Hadoop周围出现了这个生态系统,备受关注的项目围绕它壮大起来。”

而发展并未止步。新的项目一直被Apache软件基金会纳入到大数据生态系统。最近,Apache Arrow就成了一个顶级项目。其他项目可能会作为Apache软件基金会的孵化器计划(Incubator)的一员而进入生态系统。去年年底,IBM面向Spark的SystemML机器学习引擎就得到了接受,成为一个孵化器项目。

有许多项目是Apache软件基金会的大数据生态系统的一员。本文介绍了一些重要项目,还介绍了几个新兴项目。欢迎留言交流!

Hadoop

Hadoop其实是开源大数据领域的旗舰技术。它是由雅虎的一个编外项目发展起来的,当时开发人员需要一种方法来存储和处理他们使用新的搜索引擎收集而来的海量数据。这项技术最终捐献给了Apache软件基金会。如今有来自商用公司的三大发行版:Cloudera、Hortonworks和MapR。Hadoop的开发者之一Doug Cutting最近接受了《信息周刊》杂志的采访,畅谈了Hadoop的发展。

Hive

Apache Hive最初由Facebook开发,后来捐献给了Apache软件基金会。这项技术是一种建立在Hadoop基础上的数据仓库基础设施,提供了数据汇总、查询和分析。

使用Hive的公司包括CNET和eHarmony。

HBase

Apache HBase脱胎于一家名为Powerset的公司所搞的一个项目,2008年该公司被微软收购。其目的是,处理海量数据,便于自然语言搜索。这项技术是一种非关系型的开源分布式数据库,仿照了谷歌的BigTable,用Java编写而成。2010年,HBase成为Apache软件基金会的一个项目。

如今使用HBase的公司包括Adobe、Facebook、Meetup和趋势科技。

Spark

Apache Spark俨然就是大数据生态系统冉冉升起的明星。这项技术最初由加州大学伯克利分校的AMP实验室开发。它可以取代Hadoop的MapReduce,不过速度更快,因为Spark改而使用内存中处理技术,其性能最多高出100倍,这取决于具体应用。

Spark的开发人员现在供职于Databricks,该公司是支持Apache软件基金会内部这个项目的主力军,它还提供商用的Spark即服务( Spark-as-a-Service)。截至2015年年底,Spark是所有大数据项目中最活跃的开源项目,之前12个月有600多个代码捐献者。

如今许多公司使用Spark,包括亚马逊、Autodesk、电子港湾、Groupon、OpenTable和TripAdvisor。

Kafka

Apache Kafka起初只是领英公司内部的一个项目,作为一种消息传递系统,用于代理安排该公司面向消费者的职业网站及平台生成和处理的海量实时数据。