田溯宁:数据大发现与大数据时代的共识与标准建立

我们怎么认识到这个世界在发生什么。我觉得用简单的变革无法形容,可能应该用地理大发现,工业革命这样的科学发现,用新边疆这样的词才能理解计算机从60年代进入企业,70年代进入个人,互联网时代计算机到了我们的社会计算,到今天计算机一个最主要的成果,最辉煌的时候已经到来,就是云计算、大数据、物联网。它在各个方面改变我们工业革命两三百年来固定的我们的价值观、生活方式、业务模式。我觉得下一步的政府、各种力量都在发生变化。我认为网络不是简单的一个技术,它是一个力量,它在塑造社会,塑造未来的竞争,塑造人的价值观。

到底大数据和过去有什么不一样?数据早就开始了,我们知道知识产生数据,数据早就有了,为什么今天叫大数据,为什么今天的数据能解决我们过去我们解决不了的问题?我们知道过去最早的数据产生还是从早期的结绳记事,到文字。但是在计算机数据,0、1出现之后,计算机大规模的应用是在军事部队,真正用的时候在IBM的组建,它当时解决的问题是整个计算机主机时代解决的问题,是结构型的数据。就是你在什么时间干了什么事,最早应用在银行,人体普查等。多大年龄,在什么地方,谁花了多少钱,存了多少钱,谁打了电话,花了多长时间,这个数据在过去30年,40年,从IBM组建开始之后,数据处理的都是结构型数据,它相比大数据是小数据,用这个词容易理解。

什么时候数据发生了根本的变化?数据从结构型数据出现了另外一个数据,如果第一个数据叫结构型数据,第二类数据,交流型的数据出现了。在网上论坛发表的评论、照片跟别人分享,今天我们随时都在做这样的事,这些数据特点跟结构型数据完全不一样。这样就出现一个场景是数据量的突然增加,图片、文字各种各样的状态,都是随着人与人之间的交流出现的。过去数据库是为了结构型的数据,关系型数据库而建的。我们过去的存储计算都没有为非结构化数据做准备。它的到来实际上是互联网开始,互联网电子商务,互联网社交网络的组建出现了所谓的非结构的,或者叫交易型数据。这些数据的出现,量比过去的量大了不知道多少倍。有人讲今天一天用智能手机拍的照片,每天都超过人类历史上照片的总和,不知道是不是准确,但是这个量可以想像。交流型数据的出现实际上是第二类数据出现。第三类数据量,就是互联网产生的数据,我们的摄像探头、手环,未来的桌子、电冰箱都会产生数据,因为都要智能化了。未来大数据构成实际上是三种类型构成,一个结构型数据,一个交易型、交流型数据和观测型数据,这三种数据构成了今天的数据存在。第一种数据存在了60、70年,第二种数据交流型数据是这一二十年开始的,观测型数据是刚刚开始。人类到了一个大数据的时代,为什么用“海量”这个词比较好,因为到了数据海量的时候,如果过去发现了新的大陆是征服了物理的海洋,今天真的到了无所不在的数据的时代。

对大数据时代的理解,观念上大家认识不是特别的清晰。商业对我们的冲击,就是“行”的问题已经到了我们生活中,但对整个的社会的变革刚看到端倪,就像刚刚看到新大陆的时候,除了看到一大堆各种各样的物种,没有想到橡胶跟工业革命有关,烟草能改变整个人类社会行为,发现了新的食品能使人类的生活质量有大的提高,我觉得我们还处于一个非常早期的大数据时代,就是我觉得还是1.0的时候,我们还在观念认识阶段,在冲击和困惑的阶段。另外一方面,对于这样一个时代的变革,实际上我们很多的东西没有做好准备,在这样的时代,什么样的计算机网络,什么样的芯片、什么样的服务器,什么样的存储,什么样的通讯网络才能支持这么大的数据。原来电话数据存三个月就扔一边,因为存不了那么多,现在数据是资产,不能扔,但是存到什么地方去,以最低的成本存下来。大数据时代企业的竞争往哪个方向走,这还是才刚刚开始。

再举个例子,现在很重要的词,因为在商言商,讲企业,现在企业开始有了一个词叫数据驱动的企业。举个例子科技日报,比如在过去有10万用户,但是不知道用户看没有看,已有的信息就是某某订了科技日报,但是不知道每天拿到报纸是否认真阅读了,也不知道看了哪篇文章,也不知道第二年是否会续订,会订多少份等。那时候是盲人摸象,粗数据的时代。现在是以数据来驱动的。比如人有IQ,有智慧,大部分的企业没有IQ,未来应该有IQ,就是积累大量的数据,谁在什么地方看了多少报纸,在什么时候用了什么样的设备,这个时候就可以定制要什么,可预测,然后进行经营。