“数据交易”,那些吃螃蟹的家伙

“数据市场”、“数据银行”,甚至“数据公约”,大数据时代,围绕数据所有、使用和定价、交易,一直讨论不断,有些也的确富有想象力。关于数据如何跨组织交换,一直是很多行业人士关心的事情,比如中云网技术顾问陈怀临就提到了:“Big Data Bus” ,让数据变成商品,且可跨组织进行交换、整合,真正带动大数据产业繁荣。这和目前进行数据加工,出售服务或加工后的结果,比如很多互联网或者商业咨询企业经常做的,是根本的不同。

大数据时代如何将“数据”变成商品,或者原材料,如何实现有效的数据交换?进行合理定价,甚至出现数据交易市场、交易指数这样的事物,目前确实已经有一些企业在尝试了,我们进行了搜集和整理,现将这些“吃螃蟹”的案例呈现给大家。

早期比较著名的是Infochimps,该公司位于德克萨斯州奥斯丁。InfoChimps早期的目标是要让每个人都能找到自己需要的数据集。数据提供者可以将数据集上传至InfoChimps,可以供人免费下载,或者以一定的价格销售。InfoChimps还提供很多API可供用户调用,在超过一定数量的免费API调用限额后,InfoChimps会向用户收取一定的费用。然而从2012年2月起,Infochimps从数据市场转型为大数据平台提供商并获得谷歌投资,他们如今已经推出了Infochimps Platform流式数据(Streaming Data)处理平台。

2008年创办的 Factual提供的多种数据集涵盖了本地服务、娱乐、教育和医疗等多个方面,还包括了可用的政府数据。Factual不仅向大公司提供数据,同时也面向规模较小的软件开发商,每一条信息都有17到40条的相关描述。以餐馆数据为例,Factual用30种不同的方式对80多万家餐馆加以描述,包括地址、所有权以及食客和卫生组织的评价等。据悉Factual在公司总部附近储存了500兆兆字节的数据,大致相当于整个国会图书馆所需数据量的两倍。而在亚马逊云计算服务器中,还存储着更多的数据。公司计划要为相互之间联系紧密的数千个超计算云建立全球范围内最主要的参照点。

目前,Factual按浮动价格向公司和独立软件开发商出售数据,其依据是有多少信息被使用。小规模的数据提供是免费的,大型客户需要支付的费用则会达到成百上千万美元。有些时候,Factual还会与其他公司进行数据交易,目的是扩大自身所占有的资源。actual已经有了相当数量的客户,包括Facebook、CitySearch、AT&T及其他一些公司都会使用Factual来获得有关某些地方的信息。据悉,Factual在上海拥有办事处。

日本富士通公司也宣布建立自己的“大数据”的交易市场,并将交易中介服务培育为主力业务之一,计划在2016年之前将参与企业增加至千家左右。富士通将要建立的交易市场称为“Data plaza”。用户可以通过列表选择需要的数据进行下载。数据在对全部个人信息进行匿名化处理后进行交易。价格因数据量和内容不同而不同,一般在数万~数千万日元。此外,还需要缴纳每月数万日元的会费。可以在Data plaza买卖的信息还包括智能手机的位置信息、社交网站(SNS)的帖子等。富士通目前已经开始与流通业和制造业等行业的企业展开磋商。

微软的Windows Azure Marketplace,它是微软提供的数据交易和分享平台,据称拥有“数万亿个数据点”和一个语言翻译器。此外,人们也可以向Azure出售数据集。另外,还有专注于帮助开发者和第三方获取Twitter,Facebook和其他社交网站数据资源的社交媒体数据分析公司,比如Gnip和Datasift。 比如DataSift从Twitter购买了多年的数据同步授权,能够访问所有Twitter管道数据,并将子集卖给第三方,主要是企业客户。Wolfram Alpha公司,由一名数学家创立的公司则拥有苹果Siri所使用的数据和计算。

数据的分享本身非常有价值。尤其是对于很多除了内部数据,还必须辅助外部数据分析做出的决策来说。因此,能够下载或者访问外部数据集,自然而然也就成为了很多企业或机构需求,一些国家或地方政府也都推出了官方的数据集网站可供下载。另外,也有很多数据交易平台还提供云数据分析,用户可以直接用虚拟机在云端进行工作。毕竟,对于大多数企业或者普通人来说,大数据分析还是很难的。

这样就诞生了类似ClearStory这样的公司,当然还有转型后的Infochimps。它们都希望通过提供分析平台,让人们使用 “数据集市”更加方便。而且,ClearStory的数据源大部分也就是来自”数据集市“,如上面提到Datasift、Factual,微软的Azure数据市场以及Infochimps。ClearStory Data,也是谷歌投资的企业,其的目标是让数据变得可以被消费,让企业可以将自己的数据与海量公共数据混合分析,获取新的统计分析结果,并以一种可视化的报告展示出来。

附录,其他数据集相关平台

AWS(亚马逊网络服务)公共数据集,提供了一个集中的资料库,可以无缝集成到基于AWS的云应用程序的公共数据集。

DataMarket:这个全新的数据网站将创新的数据搜索功能与富有创造性的数据可视化结合在一起。用户可以创建并下载自己的数据集,并将它们加入到自己的幻灯片或公司报告中。

国家空间科学数据中心(NSSDC),美国航空航天局的数据集从行星探测,空间和太阳物理,生命科学,天体物理学,和更多。

London Datastore:这个由大伦敦市政府(Greater London Authority)创建的数据库发布了数以千计强调实时数据的数据集,譬如运输和经济方面的数据。开发者正在利用这些数据创造一系列有趣的应用程序,如马修·萨默维尔(Matthew Somerville)就为伦敦地铁系统开发了一套实时铁路地图。

Europeana的数据,包含2000万的文本,图像,视频和声音Europeana的-欧洲文化遗产内容的信任和全面的资源收集的开放的元数据。

Guardian Datablog:《卫报》及其数据博客每天都会发布新闻背后所隐藏的数据,它鼓励读者对这些数据进行可视化处理和研究。数据博客利用谷歌电子表格和谷歌云计算数据库(Google Fusion Tables)来发布数据,让读者可以搜索到世界各地数以千计的官方数据集。

DataMarket,可视化世界的经济,社会,自然,与行业,与100万次系列由联合国,世界银行,欧盟统计局和其他重要的数据提供者。

Timetric:提供经济学方面的时间序列数据以及生成复杂可嵌入图表的巧妙方法,Timetric每天都会对数以千计的数据集进行更新,此外,该网站还提供了一个易于使用的界面,使用户可以轻轻松松的创建属于自己的数据集。

Wikiposit,(虚拟)合并(主要是金融)从许多不同的网站的数据,使用户能够合并来自不同来源的数据。