探秘数据中的“大”宝藏_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

薛贵荣介绍，经过三年的发展，阿里云打造成了完全自主研发的大规模分布式计算系统——飞天。该系统除了MapReduce之外，还支持最广泛的多种编程模型。而且，阿里云的技术人员在这个同一平台之上实现了数据存储、弹性计算、搜索等多项功能。而这种功能，除了阿里云，世界上也只有Google能够做到。而阿里云的战略，我们也可以解读为Amazon+Google并有所超越，用Google模式的技术去做Amazon模式的运营。

结合当前的Hadoop热潮，或许有读者会感到困惑，费了半天劲自己研发了一个大数据平台，为何不直接使用Hadoop呢?对此问题，阿里云有自己的看法。阿里云总裁王坚曾经说：“Hadoop在离线大数据处理上很有价值，但它无法解决我们公司公共云计算服务的问题。因为我们已经上线的云服务已远远超出Hadoop的能力，这和公司的定位有关。现在，飞天已经很好地支持了阿里云的各项业务，其中包括大数据处理，在这方面，飞天实际已经超越了Hadoop。”

薛贵荣也表示，如果没有一个专业性较强的Hadoop团队去维护，Hadoop的能力上升会受到限制。不管如何，在经历了质疑、阻碍之后，飞天成功了。而之后，飞天将会在阿里云技术团队的维护下，继续扩充自身的计算能力，提供更加广泛的大数据处理服务。

谈到当前的大数据问题，薛贵荣总结了以下四个经验与读者进行分享：

第一，就是云计算平台的建设。对于大数据而言，后端的处理能力是基础，这也是阿里云最近三年一直致力在做的事情。以搜索业务为例，要想把全世界的万亿级别的网页全部索引一遍，单单依靠一台机器去处理是完全不可能实现的。因此，对于大数据的处理平台来说，如何将几千、几万台的机器做成一个集群是最为重要的事情。这种大规模的分布式计算系统是飞天系统的核心。

薛贵荣介绍，飞天从第一行代码开始就是自己写的，目前这个分布式计算模式也在积极与ISV进行合作，以便能够为其他行业的用户提供一种“自主”的大数据处理工具。

第二，薛贵荣表示，大数据平台需要有智能化的技术。他以“命题作文”为例，大数据平台不能是根据问题去寻找答案，而是应该智能地向用户提供有价值的信息。以IBM的机器人沃森为例，他能够回答非固定的问题，后端需要的是一个强大的分析系统。目前在人工智能领域的深度学习、自学习以及终生学习等都取得一些突破性的进展，值得去尝试。

第三，是成本问题。薛贵荣表示，大数据不能成为一个烧钱的项目，所以对于用户而言，成本很重要，因而在阿里云的集群中全部采用了价格比较低廉的PC服务器。这也是大数据与云计算相呼应的地方。云计算可以为大数据的处理提供一个弹性、低成本的平台，而大数据又促进了云计算的发展。

总而言之，对于一个强大的大数据分析平台来讲，智能化、弹性、集群的扩展能力都必不可少。但最基础的部分，底层的IT基础设施必须足够强大，才能够应付上层的这么许多应用。因此包括设备提供商、芯片制造商也都开始在大数据领域发力。

2/2 首页上一页 1 2