拍案而起,十问大数据

大数据

在互联网时代,大数据炙手可热,许多人言必称大数据,但能够真正说清大数据为何物的人并不多,更遑论如何借助大数据挖掘出巨大的商业价值。究竟如何定义大数据?大数据有哪些特征?本文旨在厘清大数据概念,阐明大数据应用方式及探究未来大数据发展之道。

Q1:大数据是商业炒作吗?

业界给大数据的定义是4 个“V”:体量大(Volume)、种类多(Variety)、速度快(Velocity) 和真实性高(Veracity)。但这个定义其实并未抓住大数据本质。如果仅仅看这几个维度,大数据就是一种炒作,因为它们只是表面现象。

大数据的本质应该是如何为企业带来一种更新更好的商业运作模式,而大数据应用的成功,也是依靠决策者提出好的商业问题及与其相关的商业模式。这些商业问题可以非常简单,但问题背后必须有一系列相关的商业模式。

比如,如何运用智能手机应用商城的数据, 来提高对用户APP 推荐的精度? 随后,利用应用商城的大数据,可以产生上百万维的数据表,进而建立可靠准确的推荐模型,使得用户体验水平大幅提升。

大数据应用成功的关键也正取决于是否有一个明确的商业(或科学)目的,商业模式的定义是其前提条件。

Q2:数据越多越有用?

首先,如果收集大数据的目的是建立一个对位置数据的预测模型,那么,得到这一模型的训练数据一定要包含所需的信息。但问题恰恰是,事前并不知道哪些特征是重要的,因此,需要把尽量多的数据整合起来,让机器去寻找。

然而,这个问题为什么不能去咨询该领域内的专家们呢?事实证明,专家们虽然会自己解决问题,但大都说不清他们是如何解决这些问题的。这也就是为什么在大数据应用中,专家的作用更多体现在帮助连接、聚合尽量多的数据上。

除此之外,要建立一个好的预测模型, 用来训练模型的数据总量也要足够多。如果历史数据少于一定规模,就会出现所谓“过拟合”(为了得到一致假设而使假设变得过度复杂)现象。例如,如果一个服装品牌按照某一个模特的身材来设计,衣服很可能做得偏瘦,以至于绝大多数其他消费者无法使用。这种“过拟合”现象在建立大数据下的预测模型时也会发生。

那么,数据的总量越大,是不是预测模型需要学习的时间就一定越长呢?答案是否定的。研究成果表明,在一定条件下, 当数据变得越大,实际所需要的训练时间反而越短。为什么会这样呢?可以想象:如果一个学生在学习某种概念时,只有少数习题,那么这个学生想透彻学会这个概念,就需要把每一个习题翻来覆去地看, 加以扩展,这样学习的过程会比较慢。相反,如果他有许多不同类的习题,只需要把每一个习题过一遍,即可应付未来的大部分情况。因此,习题多的学生,学到同样水平的时间反而会短。

Q3:人工智能将超过人类大脑?

经过几十年的探索,可以相信:机器的智能只能从针对大数据的学习中得来,而大数据只能从人与人的交互、人与机器的交互中得来。如果想要这些交互产生足够多的数据,就一定要让这些交互为人类提供有用的服务。

如今,什么数据最为充分?充分的数据首先是最容易被记录的那一部分,比如语音、图像、文字等。能不能直接获取人类大脑活动信息,并以此来充实我们的智能呢?当今的这种技术(如磁共振脑图成像技术) 还不够精确,因此,通过学习得到的系统虽然在单方面可以超过人类大脑(如IBMWatson),但就通用性而言,现阶段的人工智能比起人类大脑还差得很远!

有没有可能在不久之后的某天,具有人工智能的机器人成为人类的敌人呢?这是有可能的。但前提是:这些机器人的领袖一定是人类。

Q4:用户隐私问题如何解决?

隐私问题的出现其实比大数据要早, 但隐私真正成为家喻户晓的议题,却是在大数据成为热点之后。从斯诺登揭秘到苹果数据上传,随着越来越多媒体的爆料,大家对隐私的关心程度也与日俱增。隐私问题的最大矛盾在于,一方面,数据被严严实实地包起来,另一方面,它又要被运用来发现有用的东西,不得不将之开放和上传。