Nate Silver : 大数据时代的“巫师”

科学界也有像Elon Musk那样玩嘛嘛酷的偶像派人物?当然有,除了美国总统奥巴马想跟他“玩”以外,恐怕未来每届的总统候选人也都想跟他“玩”,他就是美国当前政治圈里的超级新星Nate Silver,号称为美国公众眼里完美的“预言帝”,他的“预言”被称为竞选预测之神谕。

这哥们曾单枪匹马打败了所有时政记者、政党媒体顾问以及政治评论员,让研究数字的书呆子们好好风光了一把,美国人也因此说奥巴马的胜利也是统计学家的胜利。让我们把时间追溯回2012年美国总统大选时,当时奥巴马和罗姆尼选情普遍认为很接近,评论员们都无法预计哪方会获胜,Silver却计算出“真实”情况指出二者并非处于旗鼓相当的局面,在投票当天他成功预测奥巴马将有90.9%机会获得大多数选票,最后他对美国50个州投票结果的预测全对了。事实上,2008年的总统大选他也预测对了最终结果,美国50个州的投票结果他预测对了49个。

Silver的选情分析被极度精妙的美国政治评论圈认为是达到了前所未有的水平,但因为他所使用的是被学界称为“巫术统计”的贝叶斯理论,所以也招惹来频率学派和一些保守的统计科学家们质疑,还有一些来自政党和媒体们的指责,因为Silver的预测就像是军事级别而且是精确到个人的倾向式报导,接下来的每一次大选,整个政治圈和媒体圈只能“坐以待毙”。

“大数据是非常重要的工具,而不是一个游戏”

在美国,做选情预测的统计员不计其数,之所以Silver能够一战成名成为美国数据超人,皆因他在大选的节骨眼上一个人证明了大多数时政评论员是“无用”,同时他在纽约时报网站的博客让众多企业看到了大数据应用的真实性和大数据可视化、行业化的希望。

Silve在2008年大选结束之后,很快就出版了他的处女作《信号与杂音:预测学的艺术与科学》,牛津大学数据专家维克多·迈耶曾对这本书称赞道,大数据革命将改变我们的生活、工作和思维模式,我们不必担心数据对我们自身有多大的相关性,大数据会让我们看清楚“假说”意义,未来它将会成为影响我们决策的重要因素,因为它重塑了我们眼前的世界。

事实上,Silver也开始担心:他的声望将会影响往后的选情,也将失去旁观者清优势。他并不希望人们视他为科学界“占卜的巫师”,不希望人们因此迷信这些预测,“预测是一门严谨科学,不是一种游戏,我们要用来衡量我们主观现实是否能与客观世界吻合。”

从大数据实用性来看,大数据可以帮我们解决如灾害预告、财务预告等实际问题,但Silver也指出,数据是有陷阱的,人们经常对数据产生虚有的危险幻想。“概率性思考还是绝对性思考在预测中有着截然相反的导向,如果不能做到诚实地看待数据,预测有可能变成灾难,忽略事物的不确定性往往会导致严重后果。”

Silver举例分析,1997年时美国国家气象局预测,大福克斯的洪水水位是49英尺,镇上的防洪堤限定为承受51英尺的洪水,并未将通过历史数据的正负9英尺误差算进去,结果洪水达到了54英尺,大福克斯遭遇了特大洪水灾难。日本福岛核反应堆是另外一个活生生的样本,过去45年间福岛最大的地震记录是里氏规模8.0级,日本地震研究人员参考这个数据后,他们预测该地区不会超过里氏9.0级的地震规模,然后按8.5级的防震标准来建造核反应堆,而事实上福岛在过去更早的时间曾发生过9级地震,但这种情况被认为排除了,这个预测最终为日本乃至全球带了历史性的灾难。

“数据本身是不能为自己代言的,我们经常是带着偏差的思想、个人兴趣的情况开展数据分析,我们必须知道在你所接收到信息和你知道的信息之间是存在巨大鸿沟的。”Silve同时指出,是否看到自己弱点也对分析数据有较大的影响,因为明白自己弱点人反而会采取一定办法来抵消它的作用。

相比而言,他认为从民众调查得回来的建模数据更可靠,因为没有经过媒体的渲染,直接到达他手中民意信息更真实,民众是不可能持续性地高度关注政治动态的。