预测2015大数据趋势 星环孙元浩为你揭秘

2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办,以推进大数据科研、应用与产业发展为主旨的 2014中国大数据技术大会?(Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕。

星环科技CTO孙元浩的演讲主题是“2015年大数据基础技术的演进趋势”。期间,他一共总结了四大趋势:SQL on Hadoop技术对SQL支持的完整度和性能大幅提升,混合架构将逐渐消失;从In-Memory Computing 转向 On-SSD Computing,固态盘将替代内存作为缓存;数据产生的速度以及处理的速度要求都在快速提高,实时大数据技术得到关注;虚拟化技术的快速演化与Hadoop技术的日益平台化,云计算与大数据终得融合。期间,他分享了Spark的一个数据:全球已有近50家企业围绕Spark提供产品和服务,11家提供商业Spark版本。

星环科技CTO孙元浩

以下为演讲实录:

孙元浩:

谢谢大家,谢谢查教授,我今天演讲的题目是2015年大数据技术的演进趋势,过去我们一直从事大数据实践,有一些心得跟大家分享一下。我们做了明年的预测,邀请大家一起验证。

第一个趋势是随着SQL on Hadoop技术的快速发展,SQL完整程度的大幅提高和性能提升,我们认为混合架构逐渐开始消失。

这里我解释一下为什么出现混合架构,在过去几年当中Hadoop这个技术最早开始互联网公司使用,十年之前开始发展,几年前互联网公司在企业里面用得越来越多,它处理非结构化数据和半结构化数据非常有利,但是处理结构化数据的时候功能不完整,用户觉得应该还需要使用数据库,或者MPP数据库,放在Hadoop旁边协助处理结构化的数据。第二个原因Hadoop是为几百TB,几个PB数据设计的,但是数据量小的时候,小于100T或者到10个T以下的时候,大家发现Hadoop的性能不如传统的MPP数据库,这时大家觉得有必要使用混合架构,把全部数据放在Hadoop上,部分数据放到MPP数据库进行计算,或者把实时数据放到MPP数据库,把历史数据放到Hadoop里面,当数据量积累很大的时候也让Hadoop计算,这是混合架构典型的部署方式。

我们看到过去的三年当中Hadoop发展非常迅猛,很多公司快速做SQL开发,性能也有很大提升。我们总结了一下市场上大概有四种SQL on Hadoop的技术,我是说Hadoop系统里面原生开发SQL引擎的公司和技术。第一个是Impala,它的引擎采用类似于MPP的引擎。第二家是Tez,它吸收了Spark的一些设计思想。这个产品是2012年大概五六月份开始成型。第三个我们公司的产品我们叫做Transwarp Inceptor,这是基于Spark开发的SQL引擎,我们去年10月份是第一个版本,目前支持SQL2003,支持函数、游标等功能,我们SQL完整程度目前是所有Hadoop里面支持最完整的。同时,还有 SparkSQL和Drill。四类引擎每一个都在独立发展自己的技术,而Spark会成为一个主流。我们已经可以支持TPC-DS所有的测试项,TPC-DS是用来衡量数据仓库的执行性能的,里面有大量的非等值JOIN语句,这使SQL引擎支持比较有难度的。

我们做的第一个判断是混合架构会逐渐的消失,过去MPP数据库有三个优势,第一个SQL支持完整,现在我们的SQL支持程度已经接近MPP数据库;第二个它比Hadoop性能高,但我们看到现在Hadoop性能可以超过MPP若干倍。第三个优势就是说它上面的BI工具,外延工具非常全,传统的BI厂商都已经转向Hadoop,Hadoop系统的BI工具也越来越丰富,还有一些新兴的创业公司在Hadoop上开发全新的BI工具,这些工具原生支持Hadoop,从这个角度来讲Hadoop的生态系统将很快超越传统MPP数据库。

我们觉得在未来一年两年之内,Hadoop将逐渐取代MPP数据库,大家不需要用混合架构,不需要在不同数据库之间实现迁移了。有人说我MPP也在迁移,慢慢向Hadoop靠拢,这也是事实,整个MPP的数据库在慢慢消失,完全走到Hadoop上面来。我们希望最后结果就是数据全部放在Hadoop上,不管数据在几个GB级别还是10个PB级别,都可以在Hadoop上处理,真正做到无限的线性扩展。

我们发现一个事实现在Spark成为最受欢迎的计算引擎,Impala已经开发了三年时间,SQL支持仍然不够完整,而通过Spark可以快速并行化SQL,SQL支持的完整程度可以快速提高。同时,通过Spark引擎我们证明新引擎性能可以超过MPP数据库。从今年开始Hadoop的社区发展非常快速,今年六月份的时候Spark Summit大会上,原来Hadoop生态系统中的各个厂商或项目都宣布开始全面支持Spark。我做了简单的统计,全球已经有近50家企业围绕Spark提供产品和服务,其中有11家提供商业的Spark版本,这是这里面所有的11家公司,我们也是认证的Spark发行版厂商。