大数据的误区:数据统计≠大数据

科技的进步让人变得更懒,也就是我们自身的处理能力降低,无论是主观的还是客观的。而可被选择的对象却在日益增多。从纷繁复杂的商品(电商),到海量曲库中的乐曲;从婚恋网站的男女朋友,到交通管理的信号灯。

基于人工智能下的大数据,就是可以使人们“变懒”的一个手段。 基于你的历史行为,判断出你可能的喜好,乃至需求,将最佳结果,推荐给你 。这就是大数据,她是你的贴心管家,或者说是最懂你的朋友。

一个最经典的案例是沃尔玛曾经做过的“啤酒”和“尿布”调研:沃尔玛在研究中发现,一类顾客经常在购买尿布的同时也购买啤酒。尿布跟啤酒自然是毫无关联的两个品类的商品,从个人经验上来看,根本想不到二者的联系。后来发现,这是一类社会现象所导致的。美国有很多年轻夫妇,尿布用完后,女主人在家带孩子,而男主人就去超市买尿布。买完尿布之后,男主人通常会顺带着买些啤酒。

上述例子说明,数据经常可以让你发现看似不合理不合逻辑但却存在,并且经常发生的现象。

再举个例子,北京的交通拥堵是地球人都知道的事情。尤其是早晚高峰,这已经不需要预测了。但如果根据历史交通数据,再经过数学模型,计算出一个全北京最佳的交通信号灯管理系统,这就属于大数据的范畴了。

11

图2、出租车每天的分布图

这也是我眼中大数据主要与普通的数据统计分析最大的不同:数据统计可以帮助你发现疾病,但大数据可以不但帮助你发现,且帮助你治疗疾病。

大数据绝不是“噱头“,我们在帮助某运营商阅读基地的阅读推荐项目中,各项指标均得到大幅提升。而这个提升不是百分之几十,而是数倍的提升!(用户人均流量提升了4倍,沉默用户激活能力提升了6.5倍)这才是大数据的魅力。

大数据不是万能的

大数据显然不是万能的。正因为如此,她才真实。大数据在有些领域由于种种原因,所带来的价值并不如预期的那么高。导致这种现象最主要的问题有两个,一个是由于数据本身的质量或者数量不够;另一个是算法不合适。

不要以为是海量数据就一定会有价值,在过往的工作中,我们经常发现来自甲方的数据源有80-90%的数据都是无用的。只有10%-20%的数据才会产生一定的价值。这就又让我想到Marry Meeker打的那个比喻,“大数据的工作就像在一堆稻草中寻找一根针”。

何况,大多数领域本身业务属于早期,所拥有的数据非常贫乏。冷启动、稀疏性是大数据在诸多领域面临的挑战。

另一方面,对于不同领域,不同项目,没有放之四海而皆准的算法,必须要根据具体问题具体分析解决。在实际的工作中发现,不只是不同的领域(如文章推荐与商品推荐),甚至同一领域的不同单元(同属电商但不同类电商,如母婴类和服装类或者奢侈品类)也有所不同。

数据的交叉利用

上面提到的两个大数据在实际应用中面临的最大问题,即冷启动时数据的匮乏和业务早期数据的稀疏性问题,并不是无药可救。业界一直讨论的数据打通,就是解决这两问题的出路。

对于一些新兴领域,缺乏数据是必然的,而另一方面,正由于缺乏数据的支持,所以才更需要有强大决策支持的系统对其业务做指导和支撑,以实现少走弯路,利益最大化的目的。

移动互联网领域的项目,尤为代表。虽然在过去的两三年里,移动互联网得到了高速的发展,但毕竟在各个方面的积累,都无法与互联网相比。尤其在人们形成稳定的使用习惯之前,数据还不具备更多的价值和意义。

但如果能把互联网的数据与移动互联网数据打通,那么我们就掌握了这个人的喜好等多方面信息,从而为移动互联网业务做出更有效的指导和帮助。

12

图3、互联网与移动互联网数据的打通

当然,数据的打通绝不仅限于互联网和移动互联网。每个数据源的数据往往刻画了一个人的不同方面。正如巴拉巴西教授在《爆发》一书中描绘的那样, 如果数据充分,人类93%的行为是可以预知的,是有规律的 。