IBM推通用数据平台 拟整合不兼容系统的独立数据

IBM推通用数据平台 拟整合不兼容系统的独立数据

6月7日消息,据国外媒体报道,IBM今日宣布发布名为“数据科学实验”( Data Science Experience)的通用数据平台。其寄希望于通过该平台整合各个不兼容系统中独立存储的数据,从而对这些数据进行深入分析。

数据科学家,有人也称之为硅谷的统计学家,其潜力毋庸置疑。但目前对其作用不乏出现了一些失望。这个问题并不是关于大数据本身,而是相关技术的实用性。简单的说,我们最先设计的系统能够执行特定的任务,进行特定的数据分析,随后发现我们想让它做的更多,作用更大。当需求明确起来时,会发现最大的问题是系统的兼容性。

而现在IBM发布的通用平台就是用于解决不同系统的兼容性问题,通过整合不同系统、各种格式的数据,有助于公司进行管理,或参与市场竞争。

通用平台的重要性

欧洲核研究组织CERN一直以来是世界上最大的科研机构之一。它曾经发现了反物质的分离,近期正在进行希格斯玻色子的相关研究。这里的工作与六个诺贝尔奖的诞生有关。

然而,当蒂姆·伯纳斯·李(Tim Berners-Lee)于1980年在那里工作时,他注意到该研究中心有一个非常棘手的问题。世界各地的研究人员来到这里进行科学实验,并记录下他们的结果。但是,这些实验结果被以不同的格式存储在不同的系统中,使得相互之间难以共享。

因此,李于1989年11月创建了三个著名协议:HTTP、URL以及HTML,创建了关于文档的通用平台。最终这三个协议构成了现有互联网的基石,使得我们能够以前所未有的方式共享信息,在很多方面最终改变了世界。

尽管如此,李在回忆录中还是承认这种网络的缺点:虽然它能够以前所未有的方式使人与人进行沟通,但是对于机器与机器之间的通信却做得很少。换句话说,它让我们呢的思想能够自由流动,但我们的数据却依旧被困在各自的系统中。

数据的问题

现在的每个组织在数据上都存在类似CERN在上世纪80年代所遇到的问题。他们通过各个系统收集数据,由不同的部门管理,很多系统有几十年的历史,所应用的计算环境也完全不同。

诸如一个典型的零售企业,其有各自独立的采购、销售、库存以及市场业务。所有的这些业务在与真实世界交互的过程中,都在不断地产生和存储数据。理想情况下,这些系统应当是紧密集成的,一个业务产生的新数据可以影响到另外业务的决策。

但事实上,不同的业务之间很难无缝对接、携手共进。这些系统往往以不同的格式存储信息,这使得人们很难获得数据的全部价值,譬如现实中营销活动的相关数据会影响网站和商店的客流量,但是作为决策者经常需要将其从系统中提取出来加载到分析表格中。

实际上,我们有了分析海量数据并获得相应决策的工具。屈臣氏所使用的高级认知系统可以利用大数据进行学习,指导相应的行动决策。但对于这些工作的共性前提是,需要访问不同系统的信息数据。

建立综合数据环境

这一切并不是说,我们处理数据的方式在过去十年并没有真正的进步。于2003年上线的Hadoop可以将数据分散存储在成千上万个世界各地的服务器中,并将其看作一个数据集进行分析。而2014年发布的星火系统,可以帮助人们实时分析数据。但是,目前不同系统的兼容性仍是数据分析面临的最大问题。

让我们回到零售业的例子,假设我们能够实时的营销活动建立一个采购预测模型,将其与库存系统的数据整合到一起,使我们能够避免缺货或是库存过多。看起来很简单,但是由于数据分散在各个独立的系统中,所以很难实现。

这也是IBM的数据科学实验这个通用平台所要解决的问题。IBM副总裁罗伯·托玛斯(Rob Thomas)、大数据革命一书的作者告诉我,“今天数据科学是一项个人项目。我们现在所做的就是要把它变成一项团队项目,各个独立的组织可以共同创建、分析以及共享数据。”

可以说,IBM数据科学家在实现李对互联网所做的工作,只不过处理对象从文档换成了数据。将分布于世界上的各个孤岛数据整合到单一的系统环境,使人们更有效的工作。

管理的挑战