美国大数据产业地图和数据科学家必备工具-数据源

数据专家不能只生活在R语言或Excel表格里。他们需要工具来获得质量拔尖且可用于预测分析的数据。其实我觉得这正是统计学家和数据专家的区别所在。在我看来,统计学家 使用数据进行回归分析。而 数据专家 需要切实获取数据、进行回归分析、沟通结果、展示模式,并超越所在机构当时的局限,立足于制高点带领大家寻求切实可行的突破发展。鉴于他们需要统筹整个数据通道,我希望这个数据生态系统可以罗列出数据专家门常用的重要工具和使用方法,以及工具之间的交互联系。

第一部分:数据源

数据是整个数据生态系统的源头。总的来说,数据源可分为数据库、应用和第三方数据三类。

1,数据库

结构化数据库早于非结构化数据库出现。结构化数据库每年有约250亿美元的市场,你可以在数据生态系统图里看到众所周知的Oracle,和一些新创公司譬如MemSQL等。结构化数据库储存有限的数据列,一般由结构化查询语言(SQL)运行,用于数据可靠完善至关重要的领域,比如说财政和运营。

对结构化数据库有一个重要假设,那就是查询数据时必须能得到一致且完善的结果。想一想谁绝对需要这样一种结构化数据库?对了,就是你的银行。它们存储账户信息、个人姓名、借款等等,必须随时分毫不差地知道你账户中的金额。

而另外一种则是非结构化数据库。情理之中,非结构化数据库是由数据专家们开拓的,因为数据专家眼中的数据与账户并不相同。数据专家不太在意查询结果绝对一致,他们更关注数据的灵活性。因此, 非结构化数据在许多方面降低了对数据存储和查询的要求 。

很多非结构化数据库是谷歌获得成功的直接产物。谷歌尝试把互联网存储在数据库中,其野心和工程之庞大可想而知。MapReduce是一种用于这种数据库的技术,虽然它一定程度上没有结构化查询语言 (SQL)那么强大,但是 用户可以依据需要来调整和扩充它们的数据 。MapReduce的数据使用甚至已经超出了谷歌的初始预期。比如现在谷歌可以在所有网站间查询,并根据网站之间的互相链接来调整搜索结果。这种可量化的灵活查询使谷歌获得了巨大的竞争优势,因此雅虎和其他公司以巨额投资来开发这种技术的开源版本,名叫Hadoop。

此外,非结构化数据库通常所需的 储存空间通常更小 。在过去数据存储十分昂贵,因此几年前,一些主要的互联网公司不得不每隔几个月就清空一次数据库。现在这种情况已难以想象了。 从强大的推荐引擎,到世界级的翻译系统,到令人难以置信的存货管理,都建立于这些数据之上。

非结构化数据库一般来说没有结构化数据库那么精确,但对于许多应用(尤其是数据科学界),这个折衷是值得的。举例来说,

比如你的非结构化数据库在100个机器上运行,但是其中有一个当机了。这时你仅用99台机器(而非100台)来决定向用户推荐观看一部特定的电影,也完全可行。这种类型的数据库看重灵活性,量化以及速度,哪怕不能随时保证完全精确。

还有一个更有名的例子。一个软件公司创建了一个基于Hadoop的非结构化数据库软件Cloudera。来看看它有多大的成长空间吧:7年前,我接到风投的电话,他们预期Cloudera在全球有10到15家公司的市场,去年Cloudera已获得了将近10亿美元的融资。 随着数据专家取代财务和会计,成为最主要的数据消费者,数据库将会越来越走进每一个人的生活 。

2,商业应用

十年前,没有人想过能把重要的商业数据存在云端,如见这却早已成为了现实。这也许是商业的IT基础结构的最大转变之处。 我在数据库生态系统中列出了四种主要的商业应用,分别是销售、营销、产品和消费者,每一种功能都有多种SaaS应用可供选择。

SalesForce 应该是首先掀起这股趋势的并最先获得成功的。他们把软件开发的目标人群是终端用户(销售团队),而非单个的首席技术官。这对他们的用户十分有用,在此过程中,大家也能看到公司客户能够信任地把重要公司数据放在云端。 销售数据不再存在于用户自己安装的内部数据库,而是被放在云端,由致力于保证数据可用且稳定的云端公司提供服务。

其他公司也纷纷效仿这种做法。如今基本上每个商业部门都有一个对应的数据应用。

Marketo存储营销数据,

MailChimp存储电子邮件,