大数据到底是什么?

如果用非IT类媒体的报道次数或关注度,来去衡量一个IT词汇的热度,我相信“大数据”绝对可以算得上是当前最热的IT词汇,云计算肯定不是它的对手。

大数据之所以这么火热,是因为它与普通大众的生活之间,相较其他IT术语似乎有着更为重大,或者说更具传奇色彩更为深厚的关系。从定向营销,到助力美国总统大选,大数据迅速披上了神奇的外衣。而也正是因为它对于人类生活的这种显性的影响力,让它成为了每个生活于信息世界中的人,或多或少都要关注的方向。

仅以企业与客户者之间的关系而言,企业主希望借助大数据来分析客户行为规律、兴趣爱好、找到目标的客户,向潜在的客户推送他们可能想要的信息,但另一方面消费者也会因为一些不靠谱的信息推送,来揣测相关企业的大数据的水平。除此之外,通过大数据来改变自身运营效率的企业案例,似乎也正在飞速增加着……因此,从哪个方面看,大数据也越来越有成为公从谈资的资本。然而,大数据到底是什么,可能这些参与其中的人又会给出不同的说法,有技术层面上的解读,有理念层面上的解读,有从使用效果上的事后总结……但实话实说,与其他IT术语相比,大数据在解释上更具多样性与不确定性色彩。

大数据是噱头吗?

今天我们来谈“大数据到底是什么”,并不想从技术或理念上深究,而希望能一种浅显的描述,来最大限度的达成一种对大数据的共识。其实,大数据这一概念最早成型于IDC与EMC合作的调研报告中,可是那个调研报告的侧重点还在于对互联网、物联网、云计算等大趋势下的数据积累、保存与管理的警示,随后不同的厂商在这一基础上不断扩展、丰富并最终延伸出一个业界公认的4V属性理论(体量Volume、种类Variety、速度Velocity、价值Value,IBM的4V理念将最后一个V定义为真实Veracity),从而形成了一个闭合的大数据体系,从纵向上又总结出从硬件基础设施到数据管理,再到数据分析,最后是数据呈现等4层架构。归根结底,大家最后的共识都认为大数据最终要用服务于社会的,这是它的终极用途,之前所说的积累、保存、管理、分析都是为这一目的服务的。

这么说来,对大数据的认识似乎又统一了,但也因此也使很多人对大数据概念嗤之以鼻。如果仅就大数据最终要体现出应用的价值为社会服务的话,与以前的数据挖掘、商业智能理念又有怎样的区别呢?大数据中的体量,可能在很多场合也并不能体现出来,可能就是几TB的数据也能把人搞得焦头烂额,无非就是数据类型扩展而已。所以,说“大数据只是一个噱头”并无道理。

但是,当前的一些大数据的应用案例,也的确与以往的数据仓库应用不同,这其中可能有非结构化与结构化数据的原因,但也有一新的理念、处理模型与手段的变化。至于哪些新东西是因大数据引发的,我们在此也没必要去纠缠,只需要解答一个核心的问题即可:数据到底是什么?

数据能源?

如果说很多人追捧大数据的神奇在于,它可以将原本不起眼的历史数据化腐朽为神奇,那么我们是不是可以将大数据比作一种通过加工而来的一种能源?如果可以,我们放眼地球上的能源,就会发现其与大数据有着太多相似之处。

地球上的能源有很多种,但是它们之所以是能源的前提在于人类对它们的认知。在远古时期,人类因雷电引火,发现了火和木材这两种能源,前者可用来取暖、驱兽、加工食品,后者可用来生火。在此之后,随着人类文明的进步,科技的发达,逐渐发现了越来越多的能源,比如煤、天然气、石油、太阳能等等,但是在人类还不能认知它们时,它们就不存在了吗?显然不是,在没有人类的时候,它们就已经在地球上静静的等候了成万上亿年,只是人类掌握了相应的科技与工具之后,它们才得以登堂入室。

数据也是一样,如果数据有着一个生成/采集——应用/加工——保存/管理——分析/挖掘——再保存或删除这样的一个周期的话,那么在其生成的那一刻起,它就存在着应有的价值,只是在于你是否有能力去发现它们。这需要新的理念、知识、技术与相应的工具。原始人即使知道地下几十公里有石油,他们也无法开采,所谓的数据分析,道理也是一样的。

从人类发展的历史来看,不断发现新的能源,是一种公理似的注定。当我们掌握了越来越先进的理念基础,并依此开发出越来越先进的工具,出现新的惊喜可以说理所当然。就像刚发明汽车时,谁也不会想到电、水会成为汽车可行的能源。从这个角度讲,当前的大数据所带来的种种神奇,只是人类在数据收集、管理、分析等领域的一次进步而已,它有出现的必然,而非人类的一种“顿悟”。