阿里首席战略官曾鸣:活数据、热数据才是大数据

而这个“活”,大数据的第一个特点是“在线”——活数据肯定是在线的。现在很少有数据是可能实时被使用的。阿里有一个“奔月”计划,就是把所有的数据都搬到云上,实现“实时处理”。

第二个要理解的点,我们今天的数据,跟以前不一样的地方,未来的商业数据是自然被记录下来的,而不再是一种收集的概念。这是一个根本的思路差别。

传统的市场调查,是一个数据收集的过程,而且是样本数据,因为你不可能收集所有的数据。而互联网时代的数据,是全本的自然记录。比如淘宝,有所有用户任何时间在淘宝上浏览和购物的记录,这是用户行为在淘宝自然沉淀的数据。任何商业都很关心成本,因为随着云计算的发展,存储和运算的成本会越来越低。只有用这种接近零成本的方式存储下的数据,才能够创造价值——这是一个沙里淘金的过程,沙要足够多,最后淘出的金也相对会更多。

大数据第三个特点:数据和业务是一个有机的闭环,它会是一个正反馈的作用。以搜索为例,我们有一个全网数据库,最主要的考核目标是“实时性”,搜索依据,就是要做出一个全网实时数据的index,同时要做出一个ranking:对所有网页内容,根据搜索要求,进行一个排序匹配。Google最有名的研发成果就是page rank。但这个相关性是由什么决定——它是由用户每次的点击(CTR)来决定——这个是google每次计算的活数据的来源,google没有数据收集的过程,任何一个数据的点击,就成为下一个搜索实时的信息,这就是一个活数据的概念。你搜一个关键字,原则上,一个小时前后,得到的结果是不一样的,因为一个小时之后,数据动态更新,已经形成了一个新的结果。这是一个实时的在线系统,一个完整的业务闭环:对于传统企业来说——你的业务在多大程度是由你的数据流决定了你的用户体验。

云+端,获得更好的用户体验,从云的层面说,最重要的大数据处理能力,是大数据本身的质量,数据与用户的互动——这些都会影响用户的体验;而端的层面,比如微信,是点对点的体验,不需要背后云的支持。

数据量的大少,并不是关键,关键是怎么要实现“活”数据。我以出版业为例,出版社这个业务,我想要的就是一个活数据的闭环。又如家电企业,他们有哪些业务是在线的?电商版块是在线的,在线存货和其他的存货,未必都是一盘货。

阿里不是一个纯互联网公司,我们是用互联网技术,提升商业的效率。很多互联网公司,是一个互联网技术,做出一个互联网产品。而阿里关心的,是怎么样用互联网产品,去解决传统商业的问题。这个解决的过程,必须用到这三个互联网产品形态来支撑它的业务体系——internet硬件,云计算社会化的计算公用服务,大数据作为这个平台流动的最重要的资产,web1.0-3.0作为核心的产品形态——云+端

===问答环节===

提问:所有的环节都是可以实现“数据在线”吗?比如大量的非结构数据?

回答:我认为未来都可以实现“数据在线”。这是一个解构和重构的过程。

提问:未来互联网产品的特征是去中心化吗?

回答:淘宝目前还是中心化流量的平台。我们在促进用户和商家的联系还远远不够。三年前,我们就说过我们想把淘宝做没了,因为我们想让淘宝无处不在。三年来,大数据,云计算以及移动化发展,我们都想努力实现卖家和买家去中心化的交流。换句话说,这是淘宝从web.2.0向3.0过渡。08年-13年,我们完成了最好的购物垂直搜索(这也是商业价值最大的搜索)。但12年开始,淘宝讲小而美和开放平台,已经希望在构筑用SNS的生态来建立大的商业生态系统。

微信的这个大生态,本身是一个社交需求。到目前为止,所有的人,都没有做到用SNS的一个产品理念来支撑出商业的最大化:让买家和卖家的网,可以更加丰富——这其实是商业生态的“毛细血管”部分。这是一个非常难的方向,也是一个巨大的商业机会。我也相信,会有越来越多的创业者,会试图用这个方式来寻找商业机会。

淘宝做的就是web2.0时代的商业引擎。就算3.0时代,我们这样2.0的一个中心化的平台,还是有它的商业价值。后浪推前浪,前浪并不一定会死在沙滩上。它可能会成为新时代一个小的元素。