他山之石,可以攻玉 大数据产业发展的国际经验

2012 年被认为是大数据元年。在这一年,美国奥巴马政府推出了《大数据研究和发展计划》,启动了美国国家大数据战略;用户日志管理公司 Splunk 成功上市,成为大数据第一股。在随后的几 年中,大数据风潮席卷全球,技术、资本、人才趋 之若鹜,大数据产业出现了一波脉冲式的发展。从全球经验来看,企业是大数据应用创新的主要力量,政府为大数据产业发展提供了巨大支撑,开源社区则为大数据技术进步营造了广阔空间。但是,与此 同时,鼓励数据价值发现之“鱼”和保护个人隐私之“熊掌”两者不可兼得的法规矛盾变得越来越突出。

大数据

经济层面

创造价值是大数据应用创新的源动力

利用大数据资源和技术创造更多价值,成为企业 开展大数据应用创新的源动力。围绕既有的资源禀赋和竞争优势,企业进行着各种大数据产业创新,探索 出大数据背景下适合企业自身发展的路径。

一方面,传统IT硬件厂商积极向大数据基础设 施和大数据技术平台服务提供商转型。根据美国专 业分析机构Wikibon发布的报告,IBM公司2013年从大数据相关产品及服务中获得了13.68 亿美元收益。其具体产品包括服务器与存储硬件、数据库软件、 分析应用程序以及相关服务,还有 DB2、Informix、 InfoSphere 数据库平台,Cognos 与 SPSS 等大数据 分析应用类产品。惠普公司在2013年获得的大数据营业收入总值为8.69亿美元,它还提供与之相关 的硬件、软件以及服务,其中最为知名的方案当数 Vertica 分析平台。

另一方面,诸多新型互联网企业成为数据资源的集聚方,通过创新形成大量的数据产品服务于各类应 用场景。比如,eBay公司用数据驱动商业,其所有的 数据产品都是针对业务而生,数据部门需要对不断变 化的用户需求找到解决之法,也就是从客户的行为数据中寻找更多新价值。eBay公司针对卖家工具提供的 Seller Hub,可以对每一位卖家进行深入分析,使卖家了解哪些商品更畅销,产品如何标价才能具备竞争 优势等。再比如,Salesforce公司是一家专注于CRM

(用户关系管理)的公司,通过对用户数据分析挖掘 形成新的价值,是大数据在精准营销领域的典型应用。 Salesforce公司在2015年的营业收入超过50亿美元。

据大数据行业分析师估计,到2020年,Salesforce公司有望成为一家市值达 1000 亿美元的公司。

技术层面

开源社区是大数据技术进步的大生态

开源模式成为大数据技术创新的主要途径。从大数据技术的发展历程上可以看出,大数据核心技术如分布式存储、云端分布式及网格计算均依赖于开源模式,即通过开放式的平台,吸引全球开发者通过开源社区进行代码的开发、维护和完善,从而集全球智慧推动大数据技术的不断进步。当前,全球各大企业 加大了对开源社区的赞助和智力投入,开源社区在大 数据技术进步中占据核心地位。

一方面,由第三方打造的大数据技术开源平台 发挥了积极作用。Apache 软件基金会(ASF)是推动大数据技术发展的全球顶级开源社区。ASF 正式创建 于 1999 年,至今已经成功孵化了众多大数据相关的 开源项目。ASF 大数据开源社区的创建过程是全球 大数据技术公司的集体智慧。其中,Apache Hadoop 技术的发展就是非常典型的例子。谷歌公司在 2003 年发布的关于谷歌文件系统(Google GFS)的论文 和 2004 年发布的关于编程模型 MapReduce 的论文是 Hadoop 的技术雏形。2005 年, 雅虎公司启动了 Nutch 项目,提供了一个专门的团队和资源将 Hadoop 发展成一个可在网络上运行的系统。到 2008 年 1 月, Hadoop 已成为 Apache 的顶级项目,并成为大数据发展的技术标准。

另一方面,大数据领先企业也在围绕自身生态 打造技术开源社区。这些企业通过开源项目的方式推动技术创新,并将创新成果通过开源方式向全社会辐 射,引导和推动大数据技术的发展,在国际上逐渐形成了一套高效运转的研发产业化体系。开源提供了一 种高效生产软件的方法,降低了企业进入大数据应用服务市场的壁垒,催生更多技术和服务应用的创新。 比如,Facebook 公司于 2013 年 11 月开源了 Presto 技术,该技术是新型分布式 SQL 引擎,它能够对各 种大小(从 GB 级至 PB 级)的数据源进行交互式的 分析查询。2015 年,Presto 社区的代码提交数量提 高了 48%, 而 fork 的数量则提高了 99%。Airbnb、 Dropbox、Netflix 等各大公司都开始使用 Presto 作 为交互式查询引擎。