背离现实世界,大数据毫无价值

大数据

经过一代人的时间,“技术天才”与社会的关系发生了改变,他们从宅男变成了救世主,从反社会群体变成了社会的最大希望。许多人似乎确信,当下理解我们世界的最佳方式便是坐在屏幕前,分析海量信息——我们称其为“大数据”。

来看看“谷歌流感趋势”吧。2008年,当它面世时,硅谷的许多人员鼓吹其将成为大数据的另一个里程碑,并且会很快淘汰掉传统分析。

不过,他们错了。

如果硅谷的大数据传教士们真想“了解世界”,那么他们不仅需要掌握数据的量,也要掌握数据的质。

“谷歌流感趋势”不仅没有提供流感传播的精确图表,它也无法实现大数据作为传道者的美梦。没有“厚数据”,大数据就什么也不是。你必须离开电脑,深入到现实世界当中来获取这些丰富且带有情境化的信息。电脑极客们一度因不擅社交而被嘲笑,他们被告知应该“多出去走走”。事实上,如果大数据最主要的拥趸者希望理解这个他们也参与塑造的世界,他们真的需要出去走走。

与修改算法无关

“谷歌流感趋势”试图通过识别人们在流感季可能搜索的词汇来发挥作用。当它追踪的词汇搜索达到高峰时,谷歌会向大家预警新流感的爆发,这大约要比官方数据早两周时间。

对很多人来说,“谷歌流感趋势”成为了大数据之力的代表。在畅销书《大数据:一场改变我们生活、工作和思考的革命》中,作者维克托-迈尔-舍恩柏格和肯尼斯-库克耶称,与政府滞后的数据报告相比,“谷歌流感趋势”是更有用、更及时的流感指示器。为什么即便费心查看数据,人们还是会得病,我们何时才能知道究竟什么与疾病相关?“因果关系”他们写道,“不会被丢弃,不过其立意的根本正受到考验。”

然而,本月发表在《科学》上的一篇文章表明,自2011年八月起,“谷歌流感趋势”几乎每周都会高估流感的流行性。

回溯到2009年,在发布后不久,“谷歌流感趋势”完全没预警到猪流感。这证明人们在流感季搜索的许多词都与流感无关,而与每年这一季相关的词通常都有:冬天。

如今,很容易说(像许多人做过的那样)“谷歌流感趋势”的失败源于大数据的不成熟。不过,这样便错过了问题的关键。当然,调整算法、提高数据收集技术将会让下一代大数据工具变得更有效。然而,大数据真正的狂妄之处不在于我们对一套不成熟的算法和方法过于自信,问题是我们盲目地相信坐在电脑屏幕前,捣鼓一些数字就足以让自己对周围广阔的世界有个了解。

为什么大数据需要“厚数据”

大数据仅仅是在收集人文学科中所谓的”薄数据“,它们由我们的动作和行为路径产生。我们每天最常走的路线,在网上搜索的东西,睡了多久,人与人之间的多种联系,我们所听的音乐类型等等。这些数据来自于你浏览器中的cookies,你腕上的fitbit或是你手机里的GPS。人们的这些行为内容无疑是重要的,但它们并不是全部。

为了真正地了解人,我们也必须了解经验的那部分,即人类学家所指的“厚数据”。它不仅仅捕捉事实。比如说,美国有86%的家庭主妇每周会喝掉6夸脱以上的牛奶,但是她们为什么喝牛奶呢?而且这像什么呢?一块带有星星和条纹的三色布是薄数据,而一面在风中高高飘扬的美国国旗便是厚数据。

在探寻“我们做了什么”的基础上,大数据简单地认识我们;厚数据尝试通过我们如何与所在的不同世界相联系来了解我们。只有了解我们的世界,人们才能从整体上真正认识它,这恰恰也是谷歌、facebook这类的公司想要做的。

用0和1认识世界

想想当下硅谷的那些宏伟宣言,谷歌有名的宗旨是“组织全球信息,使人人皆可访问并从中获益。”最近,马克-扎克伯格跟他的投资人说,在全球性连接变得日趋重要、知识经济不断受到强调的背景下,Facebook带来了一个全新的视角,即”认识世界”。他描述了未来“认识”的样子:“人们每天向graph(Facebook的算法搜索机制)发布数十亿条内容和链接,由此建立各种有待了解事物的最明晰模本。”在这个追求认识的过程中,即便是一些小公司也可以分享信息。去年,捷波朗软件的副总裁耶利米-罗宾逊说道,他们的健康跟踪设备Jawbone UP试图“认识行为变化的科学。”