Cloudera凌琦:大数据的行业应用逐步加深

现如今,大数据已经从单纯的概念发展为不可或缺的关键技术。大数据领域囊括了各种各样的技术,Hadoop就是其中之一,其有很强的实用性和易用性,而且经过不断的更新优化,内容越来越丰富。在Hadoop商用方面,不少公司基于开源Hadoop系统在可用性和可靠性等方面做了一定程度的优化,其中最具代表性的就是Hadoop 商业刊发版CDH ,提及CDH自然而然会联想到Cloudera公司。日前,Cloudera大中华区总裁凌琦接受了中国IDC圈记者的采访,重点谈及了大数据在行业中的应用以及推动开源社区发展的具体策略。

171441271

Cloudera大中华区总裁凌琦

2014年底Cloudera进入中国市场。目前,主要的业务包括以下三方面:软件开发License许可。其中,围绕着Apache和Hadoop制作的商业发行版本已被国内很多用户采纳;Professional Service。凌琦告诉记者:“很多客户使用了我们的软件和产品,并且和我们的合作伙伴一起建立解决方案来解决具体业务的问题。”; 培训。除了对外公开的商业性培训之外,还有公益性、学术性的培训和交流。在培训方面,Cloudera也与清华大学达成了战略合作,该项目旨在通过提供Hadoop平台上的课程、软件及技术培训培养更多专业人才。

大数据的行业应用逐步加深

2015年,全球大数据产业规模达1403亿美元。预计到2020年,中国大数据产业规模或达13626亿元,大数据在各行业的应用正经历快速发展。

大数据在医疗行业的应用十分广泛,数据融合、数据挖掘,图像处理识别、人工智能等技术的进步,使得不同领域的医疗子行业的数据能够整合,产生新的、有价值的新数据;在社会服务方面,大数据技术可以帮助相关人员整理资料,寻找服务和病人的具体情况,给他们提供量身定制的服务;在制造行业,制造商正在使用先进的分析技术,来降低成本提高产量。生产操作和车间的信息被用来提供分析洞察,这有助于简化流程,改进产品;在金融领域,大数据正在改变银行和其他机构如何做的事,如产生客户智能,降低风险,并满足各种监管目标。

目前,Cloudera在中国的集群已经超过三千个CDH,涉及到金融、电信、制造等行业,现在已经有几百个成功的商业案例。在此凌琦重点提及了制造业的案例,Cloudera跟上汽通用的合作,从汽车的测试、设计以到用户的服务。凌琦告诉记者:“这些都可以作为大数据分析的来源。目前第一步只是精准营销这个领域,未来我们会扩展这个营销的范围,包括汽车的营销、汽车的设计和测试,未来还有服务。”

遵循开源精神  回馈社区

2016年,大数据的火热程度并不亚于云计算,越来越多的互联网企业涉足其中,拥有一定技术实力是克敌制胜的关键。开源的技术十分开放,同样的问题可能有多种不同的技术路线可以解决,最后哪一个技术路线会胜出取决于市场的选择。例如,过去MapReduce是主要的基层计算模型,之后会被性能更好、效率更高的Spark替代。凌琦表示:“现在Cloudera的Hive性能已经提高了很多倍,这是一个典型的技术性优势,这是市场开发的强度以及整个商业环境造就的。”

技术上存在优势固然重要,但竞争是来自多方面的,例如商业版本的竞争。厂商竞争的过程中其商业版本是否遵循Open Source开源的精神,这一点是极为重要的。开源技术在不断地发展,任何主流旁支如果不能回流到主干上,新版本就无法支持不开放的部分。短期内对于用户来说是一个锁定的问题,长期内就会演变成一个技术落后的问题。谈及商业版本竞争,凌琦有独到的见解:“现在所有的代码都可以拿得到,可以包装、测试甚至重新变成一个商业版本销售,但是在对产品改进的时候产生的新技术是不是以遵循的Open Source的原则回馈给整个开源社区?如果没有的话就违背了开源的精神,你可以改进,这个也欢迎改进,希望每个改进能够回到开源社区。”

几年前,国内的开源社区逐步崛起,凌琦表示:“我们和国内的开源组织都有一些合作。很多大数据的战略其实是大的开源的一部分,中国的开源做的不错,我们可以把相应的很好的战略和开源的技术贡献到世界。”