谁拥有你的数据?谁又动了你的数据?

因此,作为 Michelson 金句的修改版,我们可以说,在这个数字通信的时代,你的数据——而不是你自己——是交付给大众的产品。将消费者参与重新调整为有型商品和服务的同时,谷歌和亚马逊证明了自由提取的个人数据可以盈利。这些公司能够轻易经受住互联网泡沫破灭的冲击,这绝非偶然。或者说,他们的模型已经定义了随后出现的“互联网2.0”时代。

从互联网泡沫崩溃的废墟中崛起的智能手机互联网公司中,Facebook 是最闪耀的新星。由于从一开始就设定为盈利的用户数据库,马克·扎克伯格的社交网站在设定网站布局之前,就已经做了一系列的修改,迫使用户最大可能地泄漏个人信息。当我们检查网站的结构和形式,并发挥其点赞、发布和回应等作用时,算法通过我们的在线情况进行筛选,预测我们的政治倾向、收入区间和未公开的个人兴趣。

这些细节信息被打包卖给大批广告商,而并没有为赋予这些信息价值的用户提供补偿。凭借 2016 年全年超过 270 亿美元的年收入,Facebook 已经迅速发展为全球最大的互联网公司之一,仅次于 1360 亿美元的亚马逊和 900 亿美元的谷歌。

这些公司已经建立了一个组装和销售综合元数据的行业,相互关联的小细节正变得越来越复杂,也越来越有价值。在 2015 年的一次直播中,爱德华·斯诺登曾有力地解释了元数据的威力:

“当元数据追踪某人的时候,就像是私人侦探一样。他们甚至不需要离你很近,也许只是在咖啡厅里坐在你身后,就能从你低声的谈话中听到每一个词。但他们会知道你在哪里,知道你见过什么人,知道你是在什么时候做了什么,还知道你是怎么离开的并且去往何方。如果你得到了所有的数据,你就能描绘出一个人完整的生活。”

Facebook 并不仅仅知道你和其他人的关系状态、你点赞的内容和你个人资料中的照片拍摄地点,他们还把这些信息和外部访问 Facebook 的应用程序以及你通过 Facebook 访问的网页相连。这使得他们可以获取你 Tinder 的交友信息、Venmo 的转账记录、Uber 的叫车情况、Instagram 的粉丝资料、Seamless 的订单信息和你偏好的新闻来源。谷歌也类似。如果你的智能手机里安装了谷歌地图,这个技术巨头就可以通过你的搜索历史、新闻订阅、喜爱的 YouTube 视频以及你在网页上使用 Google+ 按钮的情况得知你的所有行踪。

当然,如果没有广泛的物质基础,就不可能从这种噪音占绝大多数的模式中提炼出有用信息。考虑到这个原因,大数据也被称作新的石油:它的原始形式毫无价值,但经过适当提炼后能变为财富。

为了给数据提取创造一种资本积累的感觉,Twitter 租用了亚特兰大 99 万平方英尺数据中心的五分之一,用于存储超过 500PB 的数据,还需要每天处理、缓存和分析超过 50 万条推文;Facebook 的 7 个数据中心规模从 16 万到 48.7 万平方英尺不等,直至 2015 年底,其网络设备的价值据称已超过 36 亿美元;谷歌每个季度也花费超过 50 亿美元在公司的 16 座大型数据中心上,这些数据中心位于四个不同的大洲,拥有超过 100 万个服务器。这些高昂的准入壁垒意味着后来者无法和已成立的大型数据公司竞争,也无法从用户的参与度和免费服务中提取剩余价值。因此,少数科技巨头近乎垄断地控制着我们的大量元数据。

尽管其所有权日益集中,但处理大量个人信息的能力仍然对个人和社会产生了广泛的好处。谷歌优先的新闻我一般都会觉得有趣, Ticketmaster(票务管家)根据我在 SoundClound 上关注的艺术家向我推送演出信息,我还注意到赞助商广告总是通过一些社会主义杂志来发布假日促销的信息。从宏观上来讲,对于想要设计智慧城市的城市规划者、想要预测流行病的疾病中心工作人员、想要识别和解决新问题的工程师们而言,大数据都产生了积极的影响。

尽管如此,我们不能忘记,大数据的发展归根结底是由我们组成和创造的,而不仅仅是依靠神奇的处理中心。在 2016 年初,Facebook 上每位用户的平均价值约为 15 美元,而对于谷歌的用户来说,这个数字大约是 33 美元。这些数字看似很小,但它们在庞大的消费基础上成倍增长,而且分析公司和机器学习技术的发展,提高了将原始信息加工为有价值资讯的能力,这些数字随之变得巨大。

每个人都期望参与住院病人研究、或坐在消费者小组中参与产品测试后能够获得报酬。现在,我们为这类数据业务提供了远程服务,唯一的区别是差异化变得更大。我们无法指望凭借我们的数据获取报酬,因为这些数据的创建不能认为是一种“工作”。