大数据时代的现实生活

改变我们生活的科学革命停留在了自然科学的边界上,从没有逾越而触及人类。

如果我们像研究自然现象一样研究人类,我们就能够预测人类行为。

一旦收集到足够多的数据,就可以提出这个基本的问题:我们的可预测性有多高?并且会得到一个令人震惊的答案。

艾伯特·巴拉巴西

人类不愿被放在显微镜下观察

某种程度上来讲,有关人类行为的统计确实有很重要的意义。大量有关人类行为的数据该怎样为我们所用呢?我是一个物理学家,也可以说是一个自然科学家,我认为自然现象是可以被解析、描述,被量化的,并且是可以预测、可以控制的,这一点无可厚非。这是科学家应该做的,也是推动科学家研究的动力。那么,如果我们用人类来代替之前提到的自然现象呢?刚才那句话将变成:人类是可以被解析、描述,被量化,并且是可以预测、可以控制的。这显然是一个会令人感到非常恐慌的陈述。

然而,我们无须恐慌,这其实是一个好消息。在科学领域有一个我们从不去探讨的小秘密,改变我们生活的科学革命停留在了自然科学的边界上,从没有逾越而触及人类。

我们不会阻止科学家去预测电子移动轨迹,却不愿预知电子危机、金融危机等;我们不介意科学家去研究基因,却不愿预知战争、重大的危机等。原因非常简单。人类和细菌或其他有机体有一个根本的不同,即细菌不会因为被放到显微镜下而恼怒,月亮也不会因为飞船登陆到它的表面而提出控诉。

预测需要数据

想要预测,必须要掌握大量数据,那些说自己不需要数据就可以作预测的人不是看手相的就是商业顾问。

在对人类行为的预测方面,我们现在拥有了大量数据的支持。我们发出的每封邮件都留下了一个人的社会关系、爱好等生活线索。银行了解我们的支付能力、品味、购买意愿以及购物地点。虽然我们常常选择不去想这些,但事实是我们已经将自己放在了记录事实的多倍显微镜下,这些数据细节让他人可以迅速了解我们的生活。

《爆发》讲的就是数据统计给掌控人类行为的研究带来的改变。这里面包括方方面面的数据,其中之一是隐私方面的数据。《爆发》一书虽然提到了隐私,却不是在讲隐私。它讲的是我们的社会正在变成一个大实验室,自动收集的数据揭示了人类行为模式。

说到人类行为,我首先要解释一个问题:“为什么一个物理学家要关注人类行为?”事实是,物理学家关心人类行为,是想了解其背后复杂的系统。这里有很多复杂的体系值得研究。大脑是一方面,还有经济、细胞,以及计算机系统。去年我们发现,要了解个人行为,社会是最好的平台。这些数据帮助我们了解到每个人的日常行为,比如每一个神经元每一刻都在做什么,或者说每一个基因都有什么作用。因为这套个人统计数据统计了每个人的行为,包括他们的行为模式、运动模式,以及方方面面,所以如果你想实用一些,并且相信每一个复杂体系都是相似的,那么你就在朝着掌握更多数据、取得更大进展的方向前进。过去的五年、十年中,人类社会朝着逐步变成一个本源的复杂体系、一个便于我们掌控的体系的方向发展,但这是一个漫长的过程。

所谓“爆发”,是一个人人都在遵循的行为模式,如果你观察现实生活中人们的行为模式:什么时候发邮件,什么时候打电话,什么时候浏览网页,你一定会发现确实存在这样的模式,我们在这一方面掌握了大量数据。这些行为都不是随机的,而是聚集,最终爆发。也就是说,你会在一段很短的时间里发出大量邮件,然后在接下来很长一段时间里什么都不做,然后接下来又是一个爆发,打电话也是一样。所以,在过去十年我们关于人类行为一个很重要的发现就是,人类行为不是随机的,而是聚集带来的爆发。而最重要的是这些行为都遵循“幂律分布”。

当然没有人认为自己的行为模式是随机的,这从来就不是问题所在。问题是,随机行为的特点是什么?爆发是特点之一,而且爆发也会将我们引向下一个问题,这个我在前面也提到了。如果我们像研究自然现象一样研究人类,我们就能够预测人类行为。

预测本身其实就是一个令人感到恐惧的词。我们要预测什么?我们要预测今晚会梦到什么吗?我们要预测下次升职是什么时候吗?或者预测我们会偶遇谁?所有这些预测都需要数据的支持,需要大量数据的支持。我们作预测的能力取决于我们掌握多少数据,有了这些数据我们才能说预测的可能性有多大。所以,几年前我开始思考这个问题时,我决定从收集人类行为轨迹的相关数据开始,即我们在哪里,接下来又要去哪里。我当时没有收集他人数据的渠道,却又非常好奇作预测的可能性,所以我决定从收集自己的数据开始。