姜奇平:大数据时代到来

大数据(Big data)正构成我们明天的新大陆。

  从2012年开始,我们将从大陆时代,移民进入大数据时代。

  麦肯锡公司提出的大数据时代到来的观点,引起了全球广泛的反响。多家机构认为,“大数据”将会成为贯穿2012年的一条全新投资主线。

  作为特指的大数据,按EMC的界定,其中的“大”是指大型数据集,一般在10TB规模左右;多用户把多个数据集放在一起,形成PB级的数据量;同时这些数据来自多种数据源,以实时、迭代的方式来实现。IBM把大数据概括成了三个V,即大量化(Volume)、多样化(Variety)和快速化(Velocity)。大数据通常与Hadoop、NoSQL、数据分析与挖掘、数据仓库、商业智能以及开源云计算架构等诸多热点话题联系在一起。

  作为泛指的大数据,则指向了定制化、差异化、个性化方向的竞争力。例如美国奥巴马总统委员会的科技顾问Stephen Brobst所说:“过去3年里产生的数据量比以往4万年的数据量还要多,大数据时代的来临已经毋庸置疑。我们即将面临一场变革,新兴大数据将成为企业发展的当务之急,而常规技术已经难以应对Pb级的大规模数据量。这一变化所带来的挑战,是成功的企业在未来发展过程中必须要面对的。只有那些能够运用这些新数据型态的企业,方能打造可持续的重要竞争优势。”

  我们原以为已经进入数据时代,其实真正的数据时代从2012年刚刚开始。标志性的区别就在于,以往的数据只是结构化的数据,是非个性化的数据;而进入2012年,非结构化数据占有比例将达到互联网整个数据量的75%以上,这意味着个性化数据时代的到来。

  异质性、个性化,这才是数据的真正本质。而那种一模一样的数据,与长相相同的麦当劳、铁锹一样,仍属于过去的时代。

  在真正的数据时代,网商将不再奔向数据趋同的淘宝商城,而将涌向提供个性化竞争力的AaaS(分析即服务,analytics-as-a-service),扑向3V的怀抱。

  淘宝目前每天活跃数据量已经超过50TB,共有4亿条产品讯息和2亿多名注册用户在上面活动,每天超过4000万人次访问。“大数据”的作用,就是把这些数据采集进数据仓库中,然后用分布式的技术框架(Hadoop),对非关系型数据进行异质性处理(NoSQL),通过数据分析与挖掘,发展一对一的商业智能,从中产生让网商因小而美、不再打价格战的企业和个人竞争力;让中国产生不再依靠“中国制造”,而转向“中国创造”的国家竞争力。

  大数据时代,还会使一些具有数据核心技术的企业面临新的机会。IBM希望提供端到端、整体的大数据解决方案,机器人“沃森”在人机大战中获胜就是其中的成果。眼看已经不行的惠普,随着对数据分析仓库供应商Vertica的收购,俨然有了追随Teradata的资本。只要愚蠢的投资人不再多事,就有可能咸鱼翻身。更不用说EMC占对了内存计算的要津,抢得大数据和云计算的先机。几家欢乐几家愁,就看数据有没有。

  我个人以为,大数据并不像某些人说的,是云计算之“后”的又一浪。而就是云计算本身。因为都是数据的大规模集聚与定制化分布的结合。

  我们来到了一个人类新的分水岭,由此要把农业文明的分散化,与工业文明的集中化,在大数据中融为一体,集天地之精华,释放出无穷的能量,达到信息时代的“光明顶”。