计算新标杆:RAS2.0 重新定义关键业务服务器

  提及关键业务服务器,必有一个与之紧密相关的词会伴随左右,那就是RAS特性(Reliability,可靠性、Availability,可用性和Serviceability,可维护性),甚至不夸张地讲,用户对于RAS特性的关注程度不亚于对性能、可扩展性的重视。这是为什么呢?因为RAS特性关乎关键业务能否连续地运行下去,而关键业务一旦出现问题,造成的损失是难以估量的,其关系到企业的声誉、关乎企业未来发展。

  根据Network Computing, the Meta Group and Contingency Planning Research于2011年发布的一份调研报告显示,由关键业务服务器非计划内停机造成的损失,金融业为648万美元/小时,能源行业是280万美元/小时,电信行业是200万美元/小时……而且这些还不包括由此带来的包括客户流失、品牌影响力下降等无法直接衡量的负面影响。

  到此,相信你也能够明白为什么x86架构的关键业务服务器在与小型机争夺市场过程中要不断强化RAS特性了,说白了RAS特性对于企业关键应用而言太重要了,要想与小型机争夺市场,提升RAS特性是必需的。那问题来了,时至今日,x86关键业务服务器的RAS特性与小型机相比究竟如何,二者是否能同日而语呢?

  x86关键业务服务器面临的挑战

  严格意义上说,在关键业务领域,x86服务器的RAS特性已经逼近小型机,甚至已经超过了部分小型机,这一点从众多第三方研究机构发布的测试报告就能略知一二。比如,根据ITIC(Information Technology Intelligence Consulting Corp.)2014年发布的过去12个月各服务器平台的非计划停机时间对比报告显示,IBM的x86服务器可以达到与Power服务器一样的水平(94%的服务器停机时间小于等于40分钟,有5%的停机时间在41分钟至4小时之间,剩余仅有1%的停机时间在4小时以上),而这也超过了其它像安腾、SPARC等小型机平台的可靠性。

  ITIC 2014年发布的过去12个月各服务器平台的非计划停机时间对比报告

  至于原因嘛,与技术的演进、英特尔的努力都密不可分。这些年,不断有增强平台RAS特性的技术出现,同时,英特尔也在不断地将原本只存在于小型机上的一些技术下移到x86平台,从而使x86平台的实力得到了大幅提升,才有了今天比肩小型机的可能性。

  ITIC 2014年发布的服务器可靠性调查报告显示,从2009年到2014年,x86服务器+Linux操作系统的可靠性大幅提升,已经无限逼近IBM Power+IBM AIX的组合。

  不过话说回来,即便如此,在不少用户的印象或者认知中:x86的可靠性、可用性仍然赶不上小型机,倒不是这些用户不相信第三方的评测报告,也不是他们冥顽不灵、只认可小型机,只能说这与x86服务器的发展路径有着些许关联。

  众所周知,x86服务器的演进路线是从低端逐渐迈向高端、从单路服务器向多路服务器,再到关键业务服务器,一步步地扩充、完善产品线,直到今天。反观小型机,则一直是高高在上的一种姿态。举个不太恰当的例子,这就好比大众辉腾和奔驰、宝马之间的关系,纵使辉腾品质与同级的奔驰、宝马差不多,甚至还要高于奔驰、宝马,但于用户而言,接受辉腾总是需要一个过程的。从这个层面来看,对于用户而言,接受x86关键业务服务器无疑也是需要时间的。

  另外,造成用户对x86关键业务服务器认知有偏差的还有一个因素就是厂商水平的良莠不齐。同样是英特尔至强E7 v3处理器,可能限于开发流程、器件选择、研发能力的差异,不同厂商设计生产出来的产品就是不一样。这一点从ITIC发布的报告多少也能看出,同样是x86服务器,品质并不相同,这也给用户带来了一定的困惑。

  人们都说机会和挑战往往是并存的,前文谈到了x86关键业务服务器所面临的挑战,主要是两点:一是用户认知问题,二是厂商水平参差不齐。前者需要通过不断的技术验证、案例应用以给用户更多的信心,后者则真正考验着服务器厂商的实力,谁有能力做的更好,谁可能会最先得到用户的认可。在这方面,华为可以说是走在行业前列的。究竟华为做了哪些超前的准备,我们下面来一一展开。