专访EMC刘伟光:Greenplum的大数据战略

大数据拥有巨大的发展空间,从各国政府对大数据的政策中可见一斑。美国总统奥巴马推出的大数据发展计划,集合全美最顶尖的专家,将数据转变成商业资产和价值。中国的大数据市场同样毋庸置疑,大数据蕴藏着巨大的潜力和商机。近几年,IT厂商纷纷推出各自的大数据战略,EMC也不例外。

EMC作为一家传统的存储厂商,在全球存储领域一直处于领导者的地位。近日,IT168记者对EMC数据计算产品部大中华区总经理刘伟光先生进行了专访,共同探讨了大数据商业价值和大数据市场空间等一系列话题,并深入分析了EMC Greenplum的大数据战略。

据刘伟光介绍,他于2011年11月加入EMC公司,负责数据计算事业部大中国区整体的运营。此前曾在Oracle工作将近八年的时间,从系统架构师开始起步,后来做到大中国区企业架构团队的高级经理,2010年成为Exadata大中国区产品事业部的总监。刘伟光所在的EMC数据计算产品部门前身是EMC收购的Greenplum公司。Greenplum是分布式数据库的全球领导者,EMC看重它未来的商业价值,尤其在大数据市场的巨大潜力,因此收购Greenplum公司。在全球成立独立运作的事业部,即数据计算事业部。刘伟光作为这个事业部大中国区的经理,主要负责这个产品的在中国整体的业务推广,包括销售、售前、服务、品牌推广等一系列工作。

数据库发展的三个里程碑

谈到数据库应用的发展进程,刘伟光表示,回溯中国大型企业IT建设经历过的十五年,大致有三个里程碑:第一个里程碑是面向交易型的关系型数据库,90年代末到2000年初是中国IT系统建设发展最快、建设力度最广、投资最大的几年。中国IT建设从一个相对落后的阶段,走向一个新的发展历程,越来越多的国外企业进入中国。中国IT系统建设,尤其在电信、银行和政府领域经历了一场大规模的变革。传统数据库一般来讲都是OLTP,即面向事务处理和交易的数据库,通常是支持系统的基本业务功能操作和企业最基本的信息化需求,电信行业建设计费系统、CRM系统、客服系统,银行行业建设前台核心系统,其他行业建设基本的客户管理、营销系统。这种系统的主要功能是存储数据,面向客户提供一些服务,就如同解决人们生活的温饱问题,这种数据库就是支持联机事务处理型的数据库。

第二个里程碑是数据仓库,也可以比喻成IT建设解决温饱问题之后更高层次的需求。在这个阶段,企业的IT运营达到一定的水平,积累了很多经验。企业发现数据是非常重要的资产,但是并没有将常年积累的数据变成指导企业运营的技术基础。在这个阶段,很多大型企业开始建设数据仓库。数据仓库的前身是分析报表系统,即把数据从数据库中抽取出来形成统计报表,但这个报表通常不会对企业运营和决策分析做指导。到了数据仓库的阶段,数据不仅形成报表,还要根据各种主题、企业内部需求进行加工、分析,进而形成决策支撑的数据来源。经过存储数据、挖掘数据、加工数据、展现数据的过程,数据产生的结果成为企业下一步运营和制定市场策略最重要的技术输入。

第三个里程碑是大数据。最近几年云计算如火如荼,云计算和大数据在很多层面都是相辅相成的关系。在这个阶段,随着新技术的冲击和技术手段的推陈出新,以及互联网技术对IT行业发展的影响日益显现。云计算的出现对数据仓库产生巨大的挑战,如何处理传统关系型数据库不能处理的数据,是新技术面临的最大挑战。海量数据与大数据是不同概念,海量数据通常指的是在按照数据库表结构设计处理之后,存储到传统的关系型数据库当中的数据集合。大数据在数据容量上也比海量数据更大。另外,大数据的数据来源非常丰富,数据类型更为繁多,其中包括来自互联网和传统企业的高度信息化后产生的非结构化和半结构化数据,以及不断产生的历史归档数据,这些数据远远不是现在的技术能够快速加载的,而且也不是传统的数据库和数据仓库所能存储管理和分析的。

大数据蕴藏商业价值

现在很多公司都在谈论大数据,专家对大数据都有着各自的看法,刘伟光认为大数据主要包括四个特征:第一,大数据的数据量非常大;第二,大数据有非常复杂的数据来源;第三,大数据有非常复杂的数据结构,并不是传统关系型数据库能够处理的数据集合;第四,大数据的实效比很低,即在单位时间内处理数据的价值是相对较低,但如果能达到快速处理和分析单位时间内的大数据,就将产生无法预期的商业价值。