美刊:大数据真有这么神奇吗?

美国《外交政策》杂志网站日前发表题为《对大数据的再思考——为什么机器的兴起并不完全像人们吹嘘的那样》的文章,作者为微软研究院首席研究员、麻省理工学院公民媒体中心客座教授凯特·克劳福德。

文章称,“大数据”是当前的时髦术语,是技术界用来解决世界上最难处理的问题的全能办法。这个术语一般用来描述对海量信息进行分析,从而发现规律、收集感悟和预言复杂问题答案的艺术与科学。它也许听起来有些乏味,但是从制止恐怖分子到消除贫穷,再到拯救地球,对于大数据的鼓吹者来说,没有什么问题是解决不了的。

维克托·梅耶-舍恩伯格和肯尼思·丘基尔在有着朴素书名的《大数据:一次将改变我们生活、工作和思考方式的革命》一书中欢呼道:“对社会的好处将是无穷无尽的,因为大数据在一定程度上将解决迫在眉睫的全球问题,如处理气候变化、根除疾病以及促进善政和经济发展等。”

文章称,只要有足够多的数据可以处理——不管是你的iPhone上的数据、杂货店购物状况、在线约会网站个人简介或者是整个国家的匿名健康记录,利用对这些原始数据进行解码的计算能力,人们可以获得数不胜数的洞察。甚至连奥巴马政府也已经赶上了这股潮流,并在5月9日向企业家、研究人员和公众“破天荒”地发布了大量“以前难以获取或难以管理的数据”。

然而,大数据真的完全像人们吹嘘的那样吗?人们能相信如此众多的1和0将能揭示人类行为的隐秘世界吗?

“有了足够的数据,数字就可以自己说话。”没门儿。

文章指出,大数据的鼓吹者希望人们相信,在一行行的代码和庞大数据库的背后存在着有关人类行为模式的客观、普遍的洞察,不管是消费者的支出规律、犯罪或恐怖主义行动、健康习惯,还是雇员的生产效率。但是许多大数据的传道者不愿正视其不足。数字无法自己说话,而数据集——不管它们具有什么样的规模——仍然是人类设计的产物。大数据的工具——例如ApacheHadoop软件框架——并不能使人们摆脱曲解、隔阂和错误的成见。当大数据试图反映人们所生活的社会化世界时,这些因素变得尤其重要,而人们却常常会傻乎乎地认为这些结果总是要比人为的意见来得客观些。偏见和盲区存在于大数据中,就像它们存在于个人的感觉和经验中一样。不过存在一种值得怀疑的信条,即认为数据总是越大越好,而相关性也等同于因果关系。

例如,社交媒体是大数据分析的一个普遍的信息源,那里无疑有许多信息可以挖掘。人们被告知,推特网的数据显示人们在离家越远的时候越快乐,而且在周四晚上最为沮丧。但是存在许多理由对这些数据的含义提出质疑。首先,人们从皮尤研究中心获悉,美国上网的成年人中只有16%使用推特网,因而他们绝对不是一个具有代表性的样本——与整体人口相比,他们中年轻人和城市人的比例偏多。此外,人们知道许多推特账号是被称作“机器人”程序的自动程序、虚假账号或是“半机器人”系统(即得到机器人程序辅助的人为控制账号)。最近的估计显示,可能存在多达2000万个虚假账号。因此就算人们想要踏入有关如何评估推特网用户情绪的方法论雷场之前,请先问一下这些情绪究竟是来自真人,还是来自自动化算法系统。

“大数据将使我们的城市变得更加智能和高效。”在一定程度上是的。

文章称,大数据可以提供帮助改善城市的宝贵见识,但是它对人们的帮助仅此而已。因为数据在生成或采集的过程并不都是平等的,大数据集存在“信号问题”——即某些民众和社区被忽略或未得到充分代表,这被称为数据黑暗地带或阴影区域。因此大数据在城市规划中的应用在很大程度上取决于市政官员对数据及其局限性的了解。

例如,波士顿的StreetBump应用程序是一个比较聪明的以低成本收集信息的途径。该程序从开车经过路面坑洼处的驾驶员的智能手机上收集数据。更多类似的应用正在出现。但是如果城市开始依靠仅来自智能手机用户的信息,那么这些市民只是一个自我选择样本——它必然导致拥有较少智能手机用户的社区的数据缺失,这样的社区人群通常包括了年老和不那么富有的市民。尽管波士顿的新城市机械办公室作出了多项努力来弥补这些潜在的数据缺陷,但不那么负责的公共官员可能会遗漏这些补救措施,最终会得到不均衡的数据,从而进一步加剧已有的社会不公。人们只要回顾一下曾经过高估计了年度流感发病率的2012年“谷歌流感趋势”,就可以认识到依赖有缺陷的大数据可能给公共服务及公共政策造成的影响。