星环信息孙元浩:Hadoop推动现代数据仓库技术的深刻变革

中国IDC圈4月27日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。在27日大数据技术与产品创新分论坛中星环信息科技的创始人&CTO孙元浩分享了在互联网+时代,Hadoop推动现代数据仓库技术的深刻变革。

500-333文章照片-大数据技术与产品创新-孙元浩

星环信息科技的创始人&CTO孙元浩

以下是孙元浩演讲实录:

孙元浩:Hadoop已经经过了10年的发展,从2006年到今天刚好是10年时间。这10年当中,Hadoop从雅虎一家开源的技术平台,逐渐的被更多的互联网公司使用,到今天在很多的企业当中在使用这个新的技术,我们也见证了这个技术的飞速发展。它的应用的广度也超出了原来Hadoop设计的想像,早期的Hadoop是为了仿造Google的搜索引擎建造的,今天我们看到Hadoop的应用已经开始深入到企业的各个应用领用当中。当时我估计在2016年、2017年是新技术战略的转折点,意味着这个技术已经到达了一定程度,在各个领域当中可能会有飞速的应用,可能会比去年和前年有一个数量级的提升。

我今天首先会介绍一下我们公司,技术人员可能对我们公司很了解,很多其他行业的朋友不一定了解我们公司。我们是一家专门做Hadoop技术的公司,我们从2013年成立到现在有3年时间,发展还是比较快的。我们专注在底层开发下面,我们开发的代码量接近1千万行,我们的产品加起来将近3千万行。在去年下半年被Gartner提到我们公司,我们也是全球四大Hadoop厂商之一,我们今天也有幸成为Gartner数据仓模拟象限的一家中国公司。描述了哪些产品具有哪些特点。现在大家可以看到,这边大部分都是一些大型公司,我们被放在了最右边的位置,表示国外媒体对于我们技术的领先性和完备性还是有高度认可的,但是我们的规模会比他们低。目前来讲,我们客户的数量还是比较多的。

下面我们来介绍一下Hadoop的应用。刚才讲到,我们认为Hadoop未来一段时间会进入战略整合点,被客户接受的速度会迅速提升。最左边是一个报告,是收费报告,统计了美国市场上面Hadoop应用的分类,大部分Hadoop用户主要是60%的客户,20%的客户是交互式BI的,用于报表式工具跟Hadoop对接,还有国内的可视化公司也在跟Hadoop对接。在美国有几十家这样的公司专注做数据分析和可视化,所以这个应用场景大概有25%。还有6%的客户是做轻量级的应用,主要是使用了Hbase分布式系统来做数据的查询,这个比例不是太高,有6%。还有4%的客户是用来做文档数据库,5%的客户是用来做流处理。

右边这场图是我们星环从几百个客户当中统计出来的分类,有一定的代表性,但是不是全部的数据。从中可以看到中国市场和美国市场有比较大的不同,这个数据我们提交上去,他们已经把我们的数据放到他们的报告当中去了。我们看到有56%的客户做数据仓库,我们做数据仓库有一定的优势,我们非常完整,支持分布式处理,支持这个存储过程,所以有一部分客户已经从数据库直接牵引到我们的上面来。这种新的业务模式在用到国内的时候还不是这么快,有一类是比较特殊的,就是我们做OITP用的,做简单快速查询的应用比较多,这其实反应了我们国家的数据量比美国的客户大很多,我们中国一个省的用户就是美国AT&T全国的用户,这一块反而有一批客户在用这种简单的数据库,2%的客户在做文档数据库,这也反映了在美国NoSQL有4%的使用率。有一个不同的地方,流处理这一块在中国的应用场景比较多,有10%的客户,解决我们有10%在做流处理,主要是分布在实时的金融交易、传感器网络和工业4.0里面,2008年、2009年我们国家建立了大量的传感器,包括物联网,这一块使得我们在客户当中有比较多的在用这种做数据处理,这也反映了我们国家的工业4.0其实已经具备一定的条件了,可能比美国还要更领先一些。