值得一试的4个大数据工具

如今,大数据越来越重要,因为企业需要处理来自多个来源的不断增长的存储数据。

采用大数据可以称之为一场完美风暴。廉价的存储和大量的结构化和非结构化数据的大量涌入,导致了诸多的大型数据工具得以开发,帮助企业“解锁”他们积累的数据,从客户记录到产品性能的结果等更多的数据。

像传统的商业智能(BI),这些新的大数据工具可以分析过去的趋势,并帮助企业识别重要模式,如特定的销售趋势。许多大数据工具现在提供了一个新一代预测和规范性的见解,以及深埋在企业数据中心的所有数据。

对于人们面临的挑战,调查机构Gartner公司分析师道格·兰尼表示,人们还是不要用扩展的基础设施来处理所有这些数据,而是从各种数据本身进行处理。

“对于真正的挑战,企业对自己和客户的交易数据进行处理、整合,并共同构建和理解输入,加上来自合作伙伴和供应商的数据,还有一些外源性数据,如社会媒体的开放数据和聚合数据等等,而这些只是触及了表面。”兰尼在一封电子邮件中说表示。

大数据是一个大问题:您的网络准备好了吗?

尽管Gartner的客户端通过一个2比1的比例说明各种数据是一个更大的问题,对他们来说数据增长的速度越来越快,而数据处理供应商将会继续提供资金更大、更快的解决方案。

ConstellationResearch公司分析师道格·亨森特表示,大数据解决方案肯定是不断发展变化的。

“在我的书中,2014年是发布SQLHadoop公告的一年,但今年企业和销售商开始认识到大数据的机会不只是扩大传统的BI和数据库。”亨森特说,“因此,ApacheSpark开源框架和其他的分析方案已在2015年超越了SQL。2015年,数百家供应商和大公司开始采用ApacheSpark开源框架,IIBM公司拥抱是倡导其他分析选项最明显的厂商,而其他致力于数据集成和大数据平台的很多企业加入这个行列。”

事实上,大数据浪潮似乎来临,每天都会供应商推出的各种解决方案,其中也包括一些相对全面的设计。尽管很难得到一个全面的名单,这四个工具应该出在用户的应用清单中。

(1)数据科学家的H2O.ai

H2O.ai是初创公司Oxdata在2014年底推出的一个独立开源机器学习平台,主要服务于数据科学家和开发者,为其应用提供快速机器学习引擎。Oxdata公司表示,可以在商用硬件上对任何来源(如Hadoop,SQL)的数据进行处理分析,甚至在上千个网络节点或亚马逊的AWS云运行。个人可以尝试并继续免费使用H2O.ai。Oxdata公司将收取企业用户的费用。

“很多公司使用Spark代替Hadoop短期记忆,这就像大数据的内存一样。”H2O公司市场营销和增长副总裁奥列格·罗格斯科说,“在读取你的短期记忆方面,h20.ai的功能超越了Spark,基本上提供了超快速的分析能力。”

罗格斯科说,H2O.ai是旨在提供预测分析的数据工具的一个新品种。他指出,SQL帮助推动了描述性数据分析的早期阶段或“告诉我发生了什么”,其次是“预测期”的产品,看看发生了什么事,尽量帮助客户预测接下来会发生什么-例如:库存用完或产品突破等。

“我们在未来几年将看到第三个阶段是指令性的阶段发挥作用,这个系统说,‘这是我的教训,我认为未来会发生什么,你应该最大限度地实现目标。’”罗格斯科说,他还指出,谷歌地图的主动建议替代路线的能力就是一个规范性解决方案的例子。

H20.ai将自己定位为各种行业数据科学家使用的一个预测工具和“盒子”。例如,网络巨头思科公司有6万款预测购买决策的模型,该公司使用H2O.ai对这些模型评分。思科公司首席数据科学家表示,“其结果是太棒了,我们看到H2O.ai比我们的同类产品的性能要好3到7倍。在单独建模评分方面,h2o.ai环境是upwards的10到15倍。”

(2)ThoughtSpot3–大数据应用

借助谷歌公司这样的搜索引擎,很容易在网上搜到用户需要的社交数据和网络数据,但企业数据一般难以查找,也更难以利用。为此,7位工程师共同成立了ThoughtSpot公司,目标是开发一个类似于谷歌的搜索引擎,用于查找商业数据。

该公司在谷歌公司成立初期就为其提供硬件设备,在企业启用防火墙后提供超快搜索功能。ThoughtSpot结合了新搜索引擎的应用,它的功能是通过一个快速内存数据库来搜寻海量信息。该公司还计划提供一个基于云的服务。