得大数据者得天下

在涂子沛的第四次国内巡讲之旅中,连早餐时间都已经被占满了。

6月16日,这位《大数据》一书的作者在招商银行深圳总部大楼与马蔚华共进早餐。马刚刚卸任招商银行行长,不久前,他的照片曾出现在电影《中国合伙人》的片尾致敬花絮里,和他一同进入大银幕的企业家还包括柳传志、王石、马云等人。

“未来的世界一定是数据化的世界,未来的城市也一定会是数据化的城市。”在一个多小时的早餐会面里,马蔚华几次向涂子沛强调这一观点。

事实上,从去年7月《大数据》出版后开始,每当这位在美国供职的中国程序员回到国内,都会受到热烈的追捧。和马蔚华共进早餐的第二天,他在江苏常州就“教育与大数据”的话题进行了一场听众超过1000人的讲座,组织者是当地的教育局局长。其间,他还与国泰君安证券股份有限公司董事长万建华吃了一顿午饭,万告诉他,在自己的新书《金融e时代》里,有整整一章都在探讨大数据的问题。

“从认识的角度讲, 这一年绝对可以称为中国的大数据元年。”涂子沛说。在过去的一年里,包括他的《大数据》在内,有超过20本以大数据为主题的新书在中国面世, 在当当网上,几本卖得最好的书甚至被打上了“限量购”的标签。

如果把2013年全世界预计将存储的数据总量全部记在书里,那么这些书可以覆盖整个美国52次

涂子沛在国内的第一场公开演讲正是受马蔚华之邀。在去年10月的招商银行全国行长研讨班上,从美国赶来的涂子沛一下飞机就被拉到会场,当着100多位分行行长的面,讲了4个多小时的大数据。

“什么是大数据?”来自全国各地的行长们最好奇的就是这个问题。

按照涂子沛的解释,这首先是对信息爆炸时代的崭新描述。事实上,如果把2013年全世界预计将存储的数据总量全部记在书里,那么这些书可以覆盖整个美国52次。如果将这些数据存储在只读光盘上,这些光盘可以堆成五堆,每一堆都可以伸到月球。

事实上,在互联网专家维克托·迈尔-舍恩伯格的著作《大数据时代》里,曾将互联网时代的数据洪流与1439年前后古登堡发明印刷机时造成的信息爆炸相对比,一个重要的发现就是“当时信息存储量花了50年才增长了一倍,而如今大约每3年就能增长一倍”。

但在涂子沛看来,仅仅用数量之大解读大数据有失偏颇,能量之大才是大数据这枚硬币的另一面。

一个经典的案例是,在甲型H1N1流感爆发前几周,谷歌公司通过观察5000万条美国人最频繁检索的词条数据,发现“哪些是治疗咳嗽和发热的药物”这一主题的检索频率大增,进而准确预测了流感的发生及传播范围。

“面对海量数据,谁能更好地处理、分析数据,谁就能真正抢得大数据时代的先机。” 常年生活在美国的涂子沛对大数据的威力印象深刻,他记得有一次自己要搬家,便把各种各样的家具在网上拍卖,结果很快就有搬家公司找上门来。

和涂子沛的看法类似,一位在美国攻读统计学硕士的中国学生也告诉记者,大数据在美国非常火。他清楚地记得课堂PPT上曾有过这样的案例——美国有一个叫做Orbitz的订票网站,他们通过数据分析,发现顾客订票的价格高低往往与他们的网页浏览器相关,其中safari最高,chrome和firefox差不多。他们据此做出调整,一旦有用户通过safari网页登录,往往会被优先显示价格高的搜索结果。

事实上,在麦肯锡发布的一份报告中,已经将数据分析称为 “下一个创新、竞争和生产力的前沿”。

你想用3000多个样本折射几亿用户的行为,这事荒不荒唐就不用说了

在美国,数据分析形成了一条完整的产业链,不少大学还设立了相关的硕士学位,而在中国,这种传道也正如燎原之火。在去年,一名叫王煜全的天使投资人曾经和涂子沛同台演讲,和涂子沛一样,他也是数据的忠实信徒,“自己现在会投的创业者,必须有数据分析技术,否则免谈”。

在王煜全看来,在传统的社会学研究中,“大样本、实时监测、连续监测”往往是不可兼得的条件,而大数据打破了这个迷思。

“我们都知道央视索福瑞是做电视收视率调查的,大家知道多少个样本吗?3000多个。你想用3000多个样本折射几亿用户的行为,这事荒不荒唐就不用说了。”他在一次演讲中这样说道,“web2.0改变了这个现状,不管在Facebook、Twitter、新浪微博、微信上,我们能够随时获得全样本的实时的连续数据,这个时候我们对用户行为的理解就有可能达到空前的深度。比如在没有社交网络的时候,某位名人一直说自己是加州理工毕业的,大家相信了很久,等有社交网络你再看他的好友圈,一定有若干个西太平洋而没有加州理工的,你猜他是哪毕业的?”