专家:中国如何应对大数据时代的挑战

最近,我回国参加了一些大学的研讨会、政府部门的座谈会以及企业的培训活动,主题都是大数据,时下,国内各大报刊杂志也都在探讨这个热门话题,但我发现,中国社会对“大数据”的概念还存在一些不准确的认识甚至观念上的误区,特别是对大数据在国家层面上的战略意义估计不足,亟须深化。

从小数据到大数据

“大数据”是一股新的技术浪潮,也是逐步形成的历史现象,其具体是指随着信息存贮量的增多,人类在实践中逐渐认识到,通过数据的开放、整合和分析,能发现新的知识、创造新的价值,从而为社会带来“大科技”、“大利润”、“大智能”和“大发展”等新的机遇。大数据概念的提出,可以追溯到1980年代,但其“数据”二字却和我们传统的理解有所不同。

传统意义上的“数据”,是指“有根据的数字”,但在进入信息时代之后,“数据”二字的内涵在扩大,它不仅指代“数字”,还统称一切保存在电脑中的信息,包括文本、声音、视频等。更重要的是,随着信息技术的进步,其数量在爆炸,特别是新媒体出现之后,数据的收集、保存、维护、使用等任务,成为横跨各个领域的现象和挑战。

大数据之“大”,并不在于其表面的“大容量”,而在于其潜在的“大价值”。有很多例子可以证明,由于新工具的出现,我们从以前的小数据当中也能发现大的价值。例如,美国把二十多年的犯罪数据和交通事故数据映射到同一张地图上后惊奇地发现,无论是交通事故和犯罪活动的高发地带,还是两者的频发时段,都有高度的重合性。这引发了美国公路安全部门与司法部门的联合执勤,通过共治数据“黑点”,交通事故率和犯罪率双双降了下来。再例如,最近有学者将白宫200多年总统洗衣服的记录电子化,然后进行分析,也得出了一些新的结论。这些数据,都是地道的小数据。这说明,小数据只要在纵向上有一定的时间积累,在横向上有细致的记录粒度,再和其他数据整合,就能产生大的价值。从这个角度来看,大数据也可以理解为针对某个对象在时空两个维度上的“全息”数据。这种“全息”,在大数据的时代还表现为“多源”,即有多个源头在从不同方向对同一个对象进行数据记录,数据之间互相印证。

另外,从全球数据技术投入的资金分布来看,传统的小数据仍然占据绝对的重头。据国际数据集团(IDG)统计,2012年,全球对小数据分析工具的投资为349亿美元,而对大数据分析工具Hadoop的投资仅为1.3亿美元,不及前者的1%.IDG的结论是,传统的小数据软件满足了企业和组织95%的需求。目前行业发展的最新态势,是“大”、“小”数据分析工具趋于一体化并在向“云”迁徙。

大数据的战略意义

大数据的意义,也远远不局限于我们当前众多新闻报道中所津津乐道的“啤酒和尿布”等通过数据挖掘、实现精准营销的故事。事实上,数据挖掘已经不是大数据领域的前沿,取而代之的是机器学习。数据挖掘是指通过特定的算法对大量的数据进行自动分析,从而揭示数据当中隐藏的历史规律和未来的发展趋势,为决策者提供参考。时下兴起的机器学习,凭借的也是计算机算法,但和数据挖掘相比,其算法不是固定的,而是带有自调适参数的,也就是说,它能够随着计算、运行次数的增多,即通过给机器“喂取”数据,让机器像人一样通过学习逐步自我提高改善,使挖掘和预测的功能更为准确。这也是该技术被命名为“机器学习”的原因。这也是大数据之所以被称为革命性现象的根本原因,因为从本质上来说,它标志着我们人类社会在从信息时代经由知识时代快速向智能时代迈进。

不妨举一两个例子,来说明大数据对社会形态的影响以及对国家战略的重要性。

今年以来,一股在线教育的浪潮正在席卷美国的教育领域,一种新型的智能学习平台正在成为高科技领域创新和投资的重点,其中不少公司已经获得了初步成功。如著名的在线教育公司Coursera,已经和普林斯顿、伯克利、杜克、香港理工等全世界30多所大学达成协议,通过其平台免费开放课程。如今这些学校的课程可以实现全球几十万人同步学习。分布在世界各地的学习者不仅可以在同一时间听取同一位老师的授课,还和在校生一样,做同样的作业、接受同样的评分和考试。一些学校看到了这种智能学习平台的价值和潜力,甚至开始投资兴建自己的独立平台,2012年5月,哈佛大学与麻省理工学院就宣布,将投入6000万美元开发一个类似平台,并向全世界免费开放。