探秘数据中的“大”宝藏

薛贵荣介绍,经过三年的发展,阿里云打造成了完全自主研发的大规模分布式计算系统——飞天。该系统除了MapReduce之外,还支持最广泛的多种编程模型。而且,阿里云的技术人员在这个同一平台之上实现了数据存储、弹性计算、搜索等多项功能。而这种功能,除了阿里云,世界上也只有Google能够做到。而阿里云的战略,我们也可以解读为Amazon+Google并有所超越,用Google模式的技术去做Amazon模式的运营。

结合当前的Hadoop热潮,或许有读者会感到困惑,费了半天劲自己研发了一个大数据平台,为何不直接使用Hadoop呢?对此问题,阿里云有自己的看法。阿里云总裁王坚曾经说:“Hadoop在离线大数据处理上很有价值,但它无法解决我们公司公共云计算服务的问题。因为我们已经上线的云服务已远远超出Hadoop的能力,这和公司的定位有关。现在,飞天已经很好地支持了阿里云的各项业务,其中包括大数据处理,在这方面,飞天实际已经超越了Hadoop。”

薛贵荣也表示,如果没有一个专业性较强的Hadoop团队去维护,Hadoop的能力上升会受到限制。不管如何,在经历了质疑、阻碍之后,飞天成功了。而之后,飞天将会在阿里云技术团队的维护下,继续扩充自身的计算能力,提供更加广泛的大数据处理服务。

谈到当前的大数据问题,薛贵荣总结了以下四个经验与读者进行分享:

第一,就是云计算平台的建设。对于大数据而言,后端的处理能力是基础,这也是阿里云最近三年一直致力在做的事情。以搜索业务为例,要想把全世界的万亿级别的网页全部索引一遍,单单依靠一台机器去处理是完全不可能实现的。因此,对于大数据的处理平台来说,如何将几千、几万台的机器做成一个集群是最为重要的事情。这种大规模的分布式计算系统是飞天系统的核心。

薛贵荣介绍,飞天从第一行代码开始就是自己写的,目前这个分布式计算模式也在积极与ISV进行合作,以便能够为其他行业的用户提供一种“自主”的大数据处理工具。

第二,薛贵荣表示,大数据平台需要有智能化的技术。他以“命题作文”为例,大数据平台不能是根据问题去寻找答案,而是应该智能地向用户提供有价值的信息。以IBM的机器人沃森为例,他能够回答非固定的问题,后端需要的是一个强大的分析系统。目前在人工智能领域的深度学习、自学习以及终生学习等都取得一些突破性的进展,值得去尝试。

第三,是成本问题。薛贵荣表示,大数据不能成为一个烧钱的项目,所以对于用户而言,成本很重要,因而在阿里云的集群中全部采用了价格比较低廉的PC服务器。这也是大数据与云计算相呼应的地方。云计算可以为大数据的处理提供一个弹性、低成本的平台,而大数据又促进了云计算的发展。

总而言之,对于一个强大的大数据分析平台来讲,智能化、弹性、集群的扩展能力都必不可少。但最基础的部分,底层的IT基础设施必须足够强大,才能够应付上层的这么许多应用。因此包括设备提供商、芯片制造商也都开始在大数据领域发力。