大数据与统计新思维

中国IDC圈6月7日报道,译著《大数据时代》( 英国 ViktorMayer-Schǒnberger,Kenneth Cukier 著) 和《驾驭大数据》( 美国 Bill Franks 著) ,以及我国学者涂子沛、郭晓科的《大数据》等几本书引起了广泛的关注,其他各种媒体关于大数据的讨论也层出不穷,大数据已成为流行语。有人认为,大数据是一场新的革命,将横扫一切领域,重构世界。不少国家已将大数据作为国家发展战略,而商业领域更是将其视为下一个投资的宝库。毫无疑问,大数据时代已经来临,它正在悄悄地改变着人们的行为与思维,难以阻挡,无法抗拒。在计算机科学、电子商务等领域已率先在大数据技术开发与应用方面做出不俗成就的时候,以数据为研究对象的 统计学 该如何应对? 无动于衷还是盲目追从? 正确的态度应该是理性对待、积极跟进、改变思维、谋求发展。

一、对大数据的初步认识

到底什么是大数据,不同的学科领域、不同行业的从业人员肯定会有不同的理解。与传统意义上的数据相比,大数据的“大”与“数据”都有了新的含义,绝不仅仅是体量的问题,更重要的是数据的内涵问题。或许,“大”与“数据”根本就不能分开,只有把“大数据”当作一个整体概念来理解才有意义。那么从统计学的角度,我们该如何来理解大数据?笔者认为大数据不是基于人工设计、借助传统方法而获得的有限、固定、不连续、不可扩充的结构型数据,而是基于现代信息技术与工具可以自动记录、储存和连续扩充的、大大超出传统统计记录与储存能力的一切类型的数据。有人用4V( Volume、Variety、Velocity和Value) 来形容大数据的特征,最根本之处就是数字化基础上的数据化。通俗地说,大数据就是一切可记录信号的集合。

如果说,传统统计研究的数据是有意收集的结构化的样本数据,那么现在我们面对的数据则是一切可以记录和存储、源源不断扩充、超大容量的各种类型的数据。样本数据与大数据的这种区别,具有什么样的统计学意义? 我们知道,样本数据是按照特定研究目的、依据抽样方案获得的格式化的数据,不仅数据量有限,而且如果过程偏离方案,数据就不能满足要求。基于样本数据所进行的分析,其空间十分有限———通常无法满足多层次、多角度的需要,若遇到抽样方案事先未曾考虑到的问题,数据的不可扩充性缺点就暴露无疑。而大数据是一切可以通过现代信息技术记录和量化的数据,不仅所蕴含的信息量巨大,而且不受各种框框的限制———任何种类的数据都来者不拒、也无法抵拒。不难发现,大数据相比于样本数据的最大优点是,具有巨大的数据选择空间,可以进行多维、多角度的数据分析。更为重要的是,由于大数据的大体量与多样性,样本不足以呈现的某些规律,大数据可以体现; 样本不足以捕捉的某些弱小信息,大数据可以覆盖; 样本中被认为异常的值,大数据得以认可。这将极大地提高我们认识现象的能力,避免丢失很多重要的信息,避免失去很多决策选择的机会。

这里,我们自然就想到了大量观察与大数据这两个概念中的“大”的区别。对于传统的统计研究方法而言,大量观察法是基础,是收集数据的基本理论依据,其主要思想是要对足够量的个体进行调查观察,以确保有足够的微观基础来消除或削弱个体差异对整体特征的影响,足以归纳出关于总体的数量规律。所以,这里的“大”是足够的意思。大量观察法的极端情况就是普查,但限于各种因素不能经常进行,所以一般情况下只能进行抽样调查,这就需要精确计算最小的样本量。基于大量观察法获得的样本数据才符合大数法则或大数定律,才能用以推断总体。而大数据则指不限量的数据,是基于现代信息技术的一切可以记录的全体数据,其特征之一就是尽量多地包含数据,它与样本容量无关,只与信息来源的数量与储存容量有关。因此,这里的“大”是全体的意思。

可见,统计学的研究对象没有变,变的是数据的来源、体量、类型、速度与量化的方式。这种变化对统计研究带来了什么样的挑战? 《大数据时代》提出了三个最显著的变化: 一是样本等于总体,二是不再追求精确性,三是相关分析比因果分析更重要。这些观点具有很强的震撼力,迫使我们对现有的统计研究思维进行反思。尽管这些观点值得进一步商榷,但至少告诉我们这样一个道理: 统计研究对象的基础变了,统计思维也要跟着变化,否则统计研究的对象只是全部数据的 5%,而且越来越少,那又怎么能说统计学是一门关于数据的科学呢? 又怎么去完善和发展开展数据分析研究的统计方法论呢?