解读微软大数据

“安装在Windows server和System Center的大数据平台叫Microsoft HDInsight Server,安装在Windows Azure上的叫Microsoft HDInsight Service”这个定义来自MSDN的一篇博客,也许看上去有些抽象,TechEd 2012技术大会现场,微软亚太研发集团首席技术官孙博凯的演讲中,为大家Demo演示了HDInsight的应用场景。

Excel的用户就可以ODBC读取Hadoop资料

孙博凯在接受51CTO记者专访时特别谈到:“微软针对关系型数据、非关系型数据和数据流的管理,第一步是打造一个平台,在这个平台下,各种类型的数据都可以进来集中整合。第二步是提供一个工具,让所有的数据可以进行清理和分析。我们相信所有的洞察力都来自数据与数据之间的关联度。”在大数据领域目前常用的案例,关于美国油价波动对汽车销售的影响,也正是利用了这两个数据的关联产生的市场洞察。

技术之外,微软的重要优势便是帮助消费者通过他们最熟悉的工具来开展应用。在Demo中可以看到,不论是Hadoop on Windows Server或Hadoop on Windows Azure都可以让用户通过Excel读取Hadoop平台的数据。并在Excel环境下,整合分析结构化数据与非结构化数据。孙博凯表示,目前相关的应用可以支持Excel、PowerPivot for Excel以及Power View等工具。

在一些资料中了解到,用户完成安装Hive ODBC驱动程序,就可以通过Excel看到新增功能Hive Query,通过输入要分析的Hadoop平台数据源路径,就可以在Excel环境中,以ODBC模式,读取Hadoop平台的数据,分析结果以数据表Table或Cube形式,储存在Excel或SQL Server中。微软曾多次提出对Hadoop平台的兼容与重视,这一演示也在TechEd 2012上也成为焦点,因为微软再一次将大数据的应用直接推送到了用户的面前。

与Apache Hadoop的深入合作

微软的搜索技术Bing原本就有MapReduce分布式计算的概念。不过,微软也选择了支持越来越多的企业开始使用的Apache Hadoop,并作为非结构化数据处理架构的核心。让企业可以在Windows环境中处理Hadoop平台的非结构化数据。

“目前我们主要以Windows Server以及Windows Azure两大平台作为基础,同时和Hortonworks Platform有很好的合作”,孙博凯特别向记者提到:“Hadoop、HDInsight这样的技术,要采用更加开放的方式与合作伙伴共同推进。现在包括PHP、MySQL、Wordpress都可以在Windows Azure上运行,越来越多的开源技术也将出现在微软的平台上”。在现场的技术演示中,微软还特别针对Windows Azure上的Mobile Services和Media Services,演示了Streaming to iOS的过程。

In-Memory与一体机共同布局大数据

内存计算和一体机是大数据的热点,今年11月SQL Server用户组主办的PASS年度峰会上,微软副总裁Ted Kummert提出了In-memory Computing是微软数据平台交付战略的核心元素之一,能够让用户分析各种类型的数据,同时加速数据访问时间。能够将数据直接写入RAM进行操作,从而消除性能瓶颈。

在Ted Kummert的博客中了解到,微软从2010年开始,就已经在SQL Server中提供In-Memory技术,这个项目的代码为“Hekaton”,将作为SQL server的重要升级模块来提供,不过目前只是作为预览版在一小部分用户中使用。“Hekaton”将会完善微软的In-Memomory数据组合,同时跨越数据分析与业务交易场景。将会有突破性的性能提高,而且是内置在SQL Server中的,因此企业不需要额外购买专用的硬件或软件,并且能够轻松的移植现有应用,就能够让这些应用获得性能的突破性提升。

“欧洲某一在线博彩网站,当一场球赛上演的时候,可以有上亿球迷在线观看,需要在网上进行高复杂性一系列实时操作,他们都想进入这个交易平台。这对于网站的提供者来说是一个很大的技术挑战”,孙博凯用一个客户的实例展现了内存计算技术的突破性提升,他谈到:“我们通过内存计算技术,使整个在线交易效率提高了15~20倍。Hekaton是一个拉丁语的名字,是百倍的意思。我们设计这个技术最开始的时候,就希望达到百倍的效率,虽然现在还没有达到,不过我们会不断提升In-Memory的技术,希望有更好的突破。”

Ted Kummert在PASS年度峰会上也提到了微软并行数据仓库一体机PDW。是针对企业数据仓库、高度可扩展而设计的软硬一体机设备,采用“大规模并行处理”(MPP)体系结构。在数据处理方面基于SQL Server 2012的并行数据仓库提供了全新的PolyBase数据处理技术,xVelocity 列存储技术,满足实时数据仓库的需求,高密度 Direct Attached Storage,存储容量提升7倍,横向扩展可以实现从几个TB到6PB的线性扩展。