亚信数据何鸿凌:​我们为什么要做大数据PaaS

4 大数据尚未与云计算有机结合

早前在运营商负责全网BI系统规划时,会频繁遇到一个问题,各个省公司、各个部门都希望自己搭建大数据平台,到处都缺少人才,甚至都在争抢集成商的支持。随着大数据技术的蓬勃发展,这个问题变得非常严重,关键在于没有规模效益。公司能培养一百名大数据专家已经非常不容易了,但是如果分散在三十一个省,又分散在其中的3个IT部门(业务支撑、网管支撑和管理信息支撑系统),那么每个部门只能分到一个人。

所以当时我们就开始规划“能否实现平台和应用分离?”“可否统一搭建一个大数据平台,然后各个省公司、专业公司在平台上做分析模式、搭建自己的应用?”这种集中化经分的规划,可能是业界第一次提出大数据能力开放平台(PaaS)的概念。希望数据能够集中,能力能够集中,而应用可以分散。这样的话既能充分发挥大数据的价值、又能达到大数据平台的规模效益。当前这个系统还在建设的过程中。

后来我来到了亚信数据,因为我认为同样的情况可能更广泛的存在。如果能把大数据和云计算结合起来,将大数据能力通过云计算的模式来提供,是否可以避免各个企业、各个部门重复去搭建大数据基础设施?如果可以按需享受到比拟BAT的顶级大数据平台的服务,只用使用而不用维护,他们会不会Happy?这就是大数据PaaS平台正在做的事情。这些杂七杂八专业的事情,通过分工的形式由专业的公司来进行保障,使用者只需使用即可。

5 数据本身,其实也是一种服务

大数据PaaS最重要的就是数据资源的管理,把它与大数据能力一样看待,通通抽象成服务,即一切皆服务。谁能用这些数据,谁不能用这些数据,反应到PaaS中就是谁能订购这些服务,而谁不能。这样简单的抽象简化了系统的实现。

6 忙忙碌碌在干什么

如同开篇所说的一样,我们认为分工是推动人类社会进步的原动力。而现在可以看到大数据平台的领域中,分工并没有达到最优,还能看到很多简单的重复劳动。这些劳动由于没有达到规模效应而效率很差,造成拥有成本很高。这种高的成本导致的现象,就使很多企业的大数据价值无法充分发挥出来,无论是对内大数据变现还是对外大数据变现。由于无法达成交易,整个社会的福利也因此受到了影响。

我们希望改变这一切,根据多年的经验,将大数据的PaaS平台定位成框架、应用和服务3个方面。

·重型的,带有持久化的部分作为“服务”被集成到大数据PaaS平台中,比如MPP数据库、Hadoop之类的就属于此,还包括更加流行的流处理、机器学习等能力。各项能力通过一个标准的能力管理接口接入框架之中,提供了对大数据能力的透明性。采用的标准是Cloud Foundry中的service broker协议,目前版本为2.8。

·轻型的,不带持久化的部分作为“应用”被集成到大数据PaaS平台中,比如各种可视化、数据探索、推荐引擎、监控告警等。采用的技术标准是Docker,并通过Kubernetes容器管理系统进行封装。也就是说任何能跑在Docker中的应用,无论是单机的,还是集群的,均可以放心的托管到系统上,可扩展性和高可用性都由平台去搞定。

·管理上述两块就是框架。它将“服务”和“应用”有机地结合在一起。并负责认证、权限、计费、审计、日志、监控等管理。

毫无疑问我们采用的是一个开放的体系,因为我们认为大数据的世界如此的丰富多彩,任何一个厂家都无法提供所有的服务,开发所有的应用,开放合作可以实现共赢。

7 小结

知名调研公司Gartner预计,今年公共云服务方面的全球开支将增长16%,达到超过2040亿美元,同时预测全球IT开支将比上一年略下降0.5%,达到3.49万亿美元。请注意这种开支的下降是在IT需求增加的背景下达成的,云计算提高社会效率可见一斑。