详解:从Greenplum、Hadoop到现在的阿里大数据技术

第二,缺乏数据中心全局方案:在小规模的应用场景下,进行简单的虚拟化还是可行的,但是当云变成了企业的公共资产,变成一个平台的时候,就需要从大规模的角度甚至从数据中心整体的角度考虑,不光要考虑硬件的安装部署,还要考虑后续的维护和统筹部署,安全问题以及业务快速响应问题。由于缺乏全局方案,所以数据中心变得非常棘手。

第三,难以全面拥抱公共云:由于中国的很多政策,以及很多企业的传统习惯,还有很多投资方面的资产会限制企业一步到位地去拥抱公共云,很多时候企业希望在自己内部有一朵云,帮助企业既能够享受互联网技术带来的业务升华,同时又能避免一些政策的影响以及数据安全的限制。这些问题是真实存在的,比如说虚拟化这件事情,未来的业务场景会是互联网化甚至移动互联网化的,我们不得不把自己开放出来,去迎接更多用户的访问。只有与更多客户发生直接的关联,才能够产生对客户的洞察,这时大规模的访问以及大规模在线交易将成为必然。另一方面制造业设备,运输业的交通设备和其他电子设备等都在升级改造成为智能设备,这些设备之所以智能的前提条件就是它能够将数据送回来,让我们加以利用,这就构成了另外一个维度的大规模,这就是互联网的连接的大规模和物联网信息处理的调度大规模。

对于第三件事情,还有重要的一点是:当客户的行为数据和产品产生的数据都回到我们手中的时候,应该如何去使用这些数据?我们需要使用它们产生智能来指导业务,比如淘宝体系内,对于6亿用户,100亿商品,依靠传统方式手工去推荐基本上是一个不可能的事情,只能依靠人工智能对数据的挖掘,靠商业的智能在100亿商品和6亿客户中做推荐。双十一900多亿的营收,有300多亿的超总营收三分之一是来源于智能推荐,这也导致一个3万人的企业产生了3万亿的这样庞大的经济规模。

企业上云的最大障碍

未来企业做大规模云计算的时候,会遇到一个很大的障碍就来源于数据中心。在传统企业中构建数据中心往往采取使用复杂的硬件做集成的方式。这些异构的硬件产品在小规模的单系统情况下,耗费一些时间去集成运维,系统所提供的可靠性保证还算是可以的。但是如果将全公司成百上千个业务都运行在同一个系统上面的时候,靠简单硬件的高可用已经不足以承载,因为在5000台机器的规模下,每天都有超过10台硬盘的损坏,以这样维修的概率,如果不以软件的方式和智能化的方式加以解决,完全靠硬件的集成方式,是无以为继的。

更可怕的是对于这样一个复杂的集成工程,从采购到建设,将会经历一个漫长的的周期。这样做云计算反而制约应用的发展,因为过去一个系统采购一套设备,还是等得起的事情,但是当几千个应用都需要等待这个云平台的建设来开通的时候就是个等不起的事情了。

安全同样也是,政策法规、信息安全的一些隐患、现有系统的投资等等问题,都导致企业不可能一步就走到公共云上去。在这样的情况下,企业要解决这些困惑,要上云该怎么办呢?

阿里巴巴作为一个企业,我们也亲身经历过这样的过程,而也把这个过程获得的收获总结成公共云,并且服务了众多的小微企业。现在我们也尝试用混合云的方式服务大型企业。阿里云是怎样发挥自己的特长去帮助企业的呢?阿里云能帮助企业解决刚才提到的一个比较严重的上云障碍。可以用数字来证明我们真正做到了,双十一是对我们业务的强大的挑战,但对于技术而言,双十一也是孵化新技术良好的土壤。通过3亿用户同时在线,每秒产生14万笔订单,进行8万多笔支付交易的强事务处理的场景,以及每天要消化掉200PB的数据,产生对于客户的洞察,进而使智能化营销和智能化推荐形成闭环。

我们孵化出来了以淘宝体系为核心的分布式架构,也孵化出来了类似于谷歌那样的大数据处理的平台。这些都是从经历十多年的艰苦卓绝的斗争中积累下来的。

淘宝超大规模在线交易业务催生强大的分布式应用架构

2003年开始的时候,淘宝只是一个非常简单的网站,一个现在大家都可以做的LAMP架构的网站。但是到现在已经经历了5个阶段,通过不断解耦,通过分布式架构的1.0,2.0,3.0这样的逐步演进,我们已经能够做到把交易,消息以及数据库都完全做成分布式的。也就说在数据层面,应用层面,进入方面和查询方向,全都以分布式的结构来搭建系统,使得整个系统不存在性能以及扩展的瓶颈。