美国大数据产业地图和数据科学家必备工具-数据源_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

Optimizely存储A/B测试数据，

Zendesk存储顾客满意度，诸如此类。

为什么这是相关的呢?如今每个商业部门都有强大的数据库，由数据专家分析并用于预测分析。数据量很大，却零散地分布在多个应用之中。比如说你在SugarCRM 中查看某个消费者的信息，但是当你想知道这名顾客的服务记录时，需要去ZenDesk中查看。而如果你想要知道他是否支付了最近的账单，则要去查Xero。所有的数据都被存放在不同的地点，网站和数据库中。商业数据被转移到了云端，可以存放更多的数据了，但是这些数据被零散地存放在全世界的不同服务器的不同应用里。

3，第三方数据

第三方数据出现得比结构化和非结构化数据库都早得多。Dun & Bradstreet从1841年就开始卖数据了。随着数据对每个机构都愈发重要，这个领域也将会获得长足的发展。在数据库生态系统图中，我大体把第三方数据分成四个领域，分别是

商业信息数据，

社交媒体数据，

网页爬虫和

公开数据。

3.1，商业信息数据

商业信息数据开始最早。我上面提到了Dun & Broadstreet，商业数据购买对许多商业机构来说都至关重要。商业数据能回答所有B2B公司至关重要的问题：我们的销售团队该找谁谈?如今，这些数据更被扩展应用至网上地图和高频交易等领域。

新创的数据卖方如Factual，不仅售卖商业数据，更倾向于从这些高盈利的新型领域起步。

3.2，社交媒体数据

社交媒体数据虽然是新兴产物，但发展很快。

通过智能PR公司对社交媒体中的文本作情感分析，营销人员能够切实地了解到品牌热度与影响力，并有效评估品牌价值。

你可以从Radian6 和DatSift里看到全部细节。

3.3，网络爬虫

接下来我们来看看网络爬虫，我个人认为这是一个很有发展潜力的领域。如果能够把所有网站都作为数据源，由数据科学团队发展和分析，真不知道还有多少新型商业和技术会由此而生。如今从事网络爬虫的重要公司包括 import.io和kimono，我认为这个领域将在接下来几年呈现爆炸式的增长。

3.4，公众数据

最后，当然还要提及公众数据。如果没有数据专家团队的支持，不知道奥巴马总统是否还能够赢得2004年的大选，这可能也是后来奥巴马大力推动 Data.gov 的原因。许多地方政府也紧随其后。

亚马逊网络服务存放了许多惊人的公众数据，囊括从卫星图像到安然公司的邮件等各个方面。这些庞大的数据系列可以帮助扩大新型商业，训练更智能的算法，并解决许多实际问题。

这个领域发展快速，甚至出现了 Enigma.io 这种专门帮助企业使用公众数据的公司。

3.5，开源工具

开源数据储存的种类激增，尤其是在非结构化数据的存储方面， Cassandra ,redistribute , Riak ， Spark , CouchDB 和 MongoDB 等都大受欢迎。它们多数专注于公司应用，另外也着重于数据工程的生态系统。通过这个交互式地图你将可以一睹最受欢迎的开源数据存储及开采工具的概貌。

2/2 首页上一页 1 2