再谈企业云计算的架构选择

短短几年间,云计算已经从概念快速的转化为实际应用,当前企业更加关注的,不是是否应该选择云,而是应当如何选择云,那么,如何选择云计算基础架构也就成为不可避免的一个话题。

谈到云计算,搞技术的工程师脑海里自然而然的会浮现几个关键词场景,“分布式”+“大规模廉价服务器集群”+“虚拟化”。 云计算突破了对物理机器硬件资源的依赖,不少云主机厂商都在说物理资源的性能对云服务器已不重要, 但真的是这样的吗?显然并非如此, 底层基础硬件资源的稳定性和性能, 决定了上层云平台本身的稳定性。即便云平台可以通过软件的分布式集群和容错机制来缓解硬件故障对于平台稳定性的冲击, 但是随着云平台复杂度的增加, 整个软件架构的稳定性依然是一个挑战。

那么为什么我们现在所看到的云计算厂商几乎全部都采用了廉价的x86作为基础架构,  要讲明白这个问题, 不防来看看云计算的起源。我们知道, Google最早提出了云计算的概念,2002年的时候, G公司还不如现在这么风光和财大气粗, 而要实现快速、准确的搜索服务,提升用户体验, 需要大量的计算能力,如果像其他互联网公司那样, 要实现这个目标需要大量的高性能的服务器, 而RISC体系的服务器在当时是首选的理想选择,因为它足够可靠、性能很好,可是这种服务器的价格却比较昂贵, 需要占用大量的现金流, 这对于当时的Google来讲, 无疑是非常沉重的负担。 那么怎么办? Google的工程师们于是想到用廉价的X86芯片来自己设计和搭建服务器集群, 早期X86体系的芯片虽然廉价, 但在性能、虚拟化、可靠性方面却逊色很多,因此对于Google来讲, 要成功设计一个高性能和高可靠的系统就非常困难。Google不愧为伟大的公司, 他们有很多天才的工程师和科学家, 他们解决了很多并行计算和分布式计算的问题, 从而保证了系统的高性能, 又用软件的容错和冗余基本解决了系统的可靠性和可用性问题, 并采用了很多创新的方法保证了其数据中心的低PUE, 因此, 他们数据中心的成本可以降到令人惊讶的程度, 这也成就了Google今天的辉煌。 Google低成本的基础设施技术一直是Google的核心竞争力。从Google云计算的例子, 我们不难看出, 最主要的原因不是因为POWER不适合云计算平台, 而是POWER的成本太高, 另外就是POWER不够开放, 很多芯片和操作系统层面的优化不像x86这样容易; 再有就是POWER的生态圈相对比较封闭, 不像x86平台, 有众多的厂商参与, 有大量的技术和经验可以共享。 

IBM也充分的意识到了这一点, 2013开始, 逐步加大了POWER的开放力度, 并成立了OpenPOWER联盟, 联盟也迅速的扩大到了135个成员, 其中中国成员已超过20个,涵盖了POWER从芯片、主板、配件、系统以及软件中间件和应用的完整生态链;并且在华胜天成和IBM及北京市经济和信息化委员会就关于建立完整的可信高端计算系统产业链的进一步合作签署了三方合作谅解备忘录, 并联合相关合作方成立一家专门负责消化和吸收IBM相关知识产权授权技术的公司, 旨在打造中国高端计算全产业链。 随着众多厂商的加入, 尤其是中国厂商的加入, POWER服务器的制造成本和价格, 也有望下探到一个合理的空间, 尤其是基于POWERLINUX的服务器更有望跟主流的x86服务器的价格持平。 同时基于OpenPOWER的POWER8服务器在也在云计算和大数据应用层面上做了更多的优化和支持, 全面拥抱云计算和大数据。

随着IBM POWER技术的开放, 2015年云计算迎来了新的一轮基础架构建设热潮,x86 架构也不在是云端的唯一选择。而对于企业来说, 无疑也给困惑中的云计算构架选择, 带来了新的思路。

企业用户在云计算基础架构选择上,面临更大的挑战。 一方面架构设计需要考虑到IT架构未来的可扩展性与先进性; 另一方面又需要考虑对原有硬件资源的利用、传统业务架构迁移、云上合规性等诸多问题。 其中困扰金融用户最多的一个问题就是, 在去IOE的大背景下,POWER是否可以完全被x86所取代? 我想答案是肯定的, 不仅仅是因为有很多银行的核心应用是基于POWER服务器架构的, 业务架构往x86上迁移成本极高; 还因为POWER服务器的高性能、稳定性以及安全性是企业的核心业务所需要的, x86虽然可以通过云计算, 采用集群等技术弥补自身在稳定性和性能上的不足, 但是关键业务第一要素是IT架构的稳定、安全。