拍案而起,十问大数据

“初始化- 极端膨胀- 较大失望- 理性思考- 成功应用”这个逐渐成熟的过程。在历史上,听起来先进的技术在这个过程中却消失的例子比比皆是。那些成功的技术一定要经得起理性的思考和时间的考验,以找到它们在实践中最合适的落脚点。

目前,大数据有一个作用可能还没有被注意到——大数据可以连接大量不同的数据孤岛,使得大数据所覆盖的范围更大更广, 也使得大数据驱动的业务随着这个雪球越滚越大。这样,使用者可以不断得到新的数据, 而用户也能不断得到新的服务。

从现在大数据成功应用的领域来推断, 应用最多的应该是集中在对过去事件的存储、抽取,以及对不同数据的聚合联通、总结统计上。大数据聚合的重要作用之一是关联不同数据之间发生的个别事件。通过连通,实时发现事件真相。有了这样的数据就可以做以下分析:某个事件在发生的同时还会发生什么其他事件?如何通过过去数据来预测未来可能发生的事件?如何能够自动建议,用某种行为来促使某些事件发生,或保证某些事件不发生?等等。

大数据

Q9:大数据不能做什么?

大数据明显不是万能的,那么,大数据不能做什么呢?

不能替代有效的商业模式。大数据的应用不能没有商业模式,比如如何在大数据业务中为用户带来价值,使得数据成长和商业增长同步等等。而商业模式显然不是能从大数据本身挖掘的,而是由具备丰富经验的专家来确定的。

不能没有领导的决断力。在今天的大部分公司中,数据的存在形式无异于一个个孤岛。把这些数据整合起来不仅是个技术活,还有很强的管理因素。往往在同一个公司的不同部门会有很多竞争,数据就是一个部门的资产。虽然把几种不同数据聚合在一起会很有价值,但能真正做到这一点的公司却会发现,要成功做到数据整合需要更高级领导的决断力。这也是为什么一些很有前瞻性的公司会专门有一个部门来负责全公司的数据业务。

不能无目的地挖掘。在大数据的初学者当中,有一个普遍的错觉:当我们有了足够的数据,就可以在其中漫无目的地找到知识。这样的错觉实际上是不科学的。数据挖掘需要约束与目标,否则就是大海捞针,必然是徒劳的。比如,开普勒的成功是建立在以太阳为焦点的椭圆形假设上的。

不能没有专家。上文提到,大数据在不同应用领域会需要不同的专业知识来指导。而不同的领域, 需要专家们的参与程度也会不同。G o o g l e 实验室有一个在大量图片和视频数据中, 让计算机自动识别猫脸的例子。但这样的深度学习很难推广到其他大数据的领域。因为,成功的先决条件之一是该领域本身具有非常直观的层次结构, 就像图片的构成一样。如果某个领域的数据不具备这样的层次结构, 就很难用同样的方法自动发现规律。而这样一个结构是需要数据科学家来定义的。

不能一次建模, 终生受益。一个好的模型需要不断更新, 需要终生学习(Lifelong Machine Learning) 来不断改进。例如,在奥巴马的竞选中,科学家建立了一个用户投票模型,来预测选民可能的立场,而这个模型是每周利用更新的数据来更新一次的。

不擅长做全局性的优化分析。大数据下的主要数据处理方法是“分而治之”,即把大的数据分为小块,一块一块地处理, 然后再把结果合并。这个过程也许要经过很多次,但总的思想是这样分化、合并之后的结果,与全局计算的结果是一样的。但是,还有很多问题是不能这样来解决的。比如,在下围棋的时候,每一个棋子的目的可能和整个战略都相关,所以分而治之的想法是行不通的。

不能没有对其语义的标注。目前只能通过对数据的标识赋予其意义。比如,推荐系统在没有用户反馈的情况下效果很差,而通过现有的心理学模型等加强其效果都无效。一般来说,如果试图从数据中发现知识,则需要大量的数据标注。往往在一个和用户有直接互动的应用中是可以得到这样的标识数据的。要得到大量的标识数据,不仅需要一个平台来承载有用的应用,而且需要一个对人、对大数据系统的双赢经济学模型。