大数据分析的光荣与陷阱——从谷歌流感趋势谈起

现实中大数据的采集也会遇到类似问题,因为大数据往往是公司或者企业进行主要经营活动之后被动出现的产物。以谷歌公司为例,其商业模式的主要目标是更快速地为使用者提供准确信息。为了实现这一目标,数据科学家与工程师不断更新谷歌搜索的算法、让使用者可以通过后续谷歌推荐的相关词快捷地获得有用信息。这一模式在商业上非常必要,但是在数据生成机制方面,却会出现使用者搜索的关键词并非出于使用者本意的现象。

这就产生了两个问题:第一,由于算法规则在不断变化而研究人员对此不知情,今天的数据和明天的数据容易不具备可比性,就像上例中半年前的老虎数据和半年后的老虎数据不可比一样。第二,数据收集过程的性质发生了变化。大数据不再只是被动记录使用者的决策,而是通过算法演化,积极参与到使用者的行为决策中。

在GFT案例中,2009年以后,算法演化导致搜索数据前后不可比,特别是“搜索者键入的关键词完全都是自发决定”这一假定在后期不再成立。这样,用2009年建立的模型去预测未来,就无法避免因过度拟合问题而表现较差了。

(三) 陷阱三:看不见的动机

算法演化问题中,数据生成者的行为变化是无意识的,他们只是被页面引导,点出一个个链接。如果在数据分析中不关心因果关系,那么也就无法观察到人们通过有意识的行为变化,从而影响了数据根本特征。这一点,对于数据使用者和对数据收集机构,都一样不可忽略。

除掉人们的行为因为自己的原因产生系统不知道的变化之外,大数据的评估标准对人们行为的影响尤为值得关注。再以智空为例。假定上文中的小和尚智空发现自己的西瓜信用分远远低于自己好友智能的西瓜信用分。智空很不服气,经过仔细思考,他认为朋友圈言论可能是形成差异的主因。于是他细细研究了智能的朋友圈。他发现,智能从不在朋友圈提及遇到老虎的事,而是常常宣传不杀生、保护环境、贴心灵鸡汤,并定期分享自己化斋时遇到慷慨施主的事。虽然在现实中,他知道智能喜好酒肉穿肠过、也从未见老和尚称赞智能的化斋成果。智空茅塞顿开,从此朋友圈言论风格大变,而不久后他也满意地看到自己的西瓜信用分大幅提高了。

如今,大数据常常倚重的一个优势,是社交媒体的数据大大丰富了各界对于个体的认知。这一看法常常建立在一个隐含假定之上,就是人们在社交媒体分享的信息都是真实的、自发的、不受评级机构和各类评估机构标准影响的。但是,在互联网时代,人们通过互联网学习的能力大大提高。如果人们通过学习评级机构的标准而相应改变社交媒体的信息,就意味着大数据分析的评估标准已经内生于人们生产的数据中,这时,不通过仔细为人们的行为建模,是难以准确抓住的数据生成机制这类的质变的。