陈敬熙:超云云服务器的17年底蕴

2011年5月18日,应用与创新第三届中国云计算大会云基地专场在北京云基地二层举办。中云网作为本届云计算大会云基地专场官方指定战略合作门户网站和官方指定的合作新闻中心,进行全方位的视频、图文采访与直播。

18日下午,“互联网行业专场论坛”在云基地召开,天地超云科技的服务器总监陈敬熙出席大会并发表主题演讲。

天地超云科技的服务器总监陈敬熙(中云网摄)

以下是天地超云科技的服务器总监陈敬熙的演讲全文:

陈敬熙:

我们叫做云计算服务器,很多客户跟我们交互中经常探讨这个话题,你们跟全球前三大都差不多,你们叫做云服务器。大家都是做互联网的,我们也捞一些比较干的话题,为什么我们说代表了云计算,甚至在互联网应用的云计算产品。

这是我们的生产工厂,现在我们在国内本土成立天地超云的品牌,它是一个新的牌子,它到现在已经有17年主办研发和服务器架构的经验。超云在中国是一个新的牌子,但是它的技术并不是山寨的技术,它有17年的底蕴。

大家可以想象一下一个做了17年的网站,我们能够留下来的积淀是什么呢?我们不仅仅跟超微有合作,包括技术上的交流和研发,有很多需求和对产品的定义和开发,我们基本上和超微共同去做,我们在本土收集客户的需求,基于目前超微在全球的体现上面进行持续化的改进。

我们目前已经有的一些阶段性的成果,这是我们高层领导,这是在去年的12月底超云的第一台服务器下线了,在这个过程中从公司成立到现在还不到一年的时间,包括整个厂房的建立,包括第一台服务器下线,也包括北京市的领导和各个地方的领导来我们这边参观,甚至包括各个行业企业里面的领导对我们现在的产业也是相当重视的。

因为大家都是做互联网的,所以大家很关心我们是如何看待未来云计算的。其实大家都有一个共识,实际上现在每个用户终端是非常快的速度在进行转换或者说处在变化的时代,可能今天有了Iphone4玩的很开心,你玩了一年以后觉得这个东西差不多了,在座各位有多少是一年换一部手机的,大家都是三年换一部手机,做互联网都是这样的,我参观过很多客户的办公环境基本上台式机都是自己配制的机箱,现在大家都在强调不停的更换,包括现在的消费趋势。包括像现在的微博很火,再往前看淘宝很火,这种热是持续性的,但是你发现有一点是永恒不变的就是这些应用都跑到服务器上,你运营一个产业的时候,它一定是最结实、最耐用以至于到生命最后一分钟都是在稳定运行的,尤其在云计算领域分布式的业务它也要坚持更高的可靠性和稳定性,这是我们在做云计算未来所遵循的主旨。

我们跟很多客户交流之后逐渐得出一个结论,尤其在数据中心环境或者是大规模服务器部署的环境,包括计算密度与存储的平衡,在这样一个需求的驱使下于是超云服务器应运而生。我们整个产品线是两个部分,我们往上是定位于云计算的产品,反过来像5000、3000、2000系列产品,作为企业里面应用的文件服务器或者是WEB服务器或者是数据库,我们基本上提供这样一个需求的对应。

我后面重点介绍一下6000和7000系列,其实在服务器领域我们在6000或者6000以上的产品里面,我们贯彻了几个非常关键点。在这里面我们强调了密度和可靠性的设计,我们在两用空间里面,大家可以看一下抽拉结点,每一个计算结点占1/4的空间,它的整个性能是独立服务器的性能,整个性能比是没有打任何折扣的。整个主板的布局是采用无线缆设计,所有到主板的接口都采用金属结构,在这样一个结构体系来讲,你觉得这种结构体系意味着什么吗?意味着整个维护成本、管理成本,包括维修时间会大幅度的降低,我们可以不客气的讲,在传统服务器情况下,我们假如说用服务器用的是什么,最不希望什么出问题呢?最不希望主板出问题,主板出问题这个故障是最费劲的,以前我跟戴尔接触很多,包括一些国际厂商,他们承诺四小时到厂,他们做的很好。但是相反如果说今天的服务器是主板故障进行更换,我问工程师他带了吗?他说带主板,那好请你换下来,现在请问大家把大象放进冰箱需要几个步骤呢?这么一个过程最快多长时间能完成呢?我们DIY插台机器我个人记录最快45分钟,所有的部件都没有问题,想象一下一台主机45分钟才能完成维修的工作,如果你只有一台没有很大的规模承载着其他应用,这个带来的影响是很深远的,比如说数据库更换所有的业务进行不下去,这是很不可容忍的现象。但是相反在这种结点设计里面带来了一个特别大的优势,它可以做到把大象放到冰箱里面那么容易,它需要做的是什么呢?某一个结点出现故障,直接把结点拉过来,更换一个配件就可以了,我们跟其他竞争对手完全不一样的是,一般是你哪儿坏了换哪儿,我们直接提供一个结点,你把结点拿出来CPU内存插上去,开机就完成了。我们算一下最长的时间总共不会超过20分钟。

刚才提到整个结构层面我们做了很大的优化,尤其在高密度数据中心里面。我们对UIO接口里面可以带来几个便利性,它可以根据主板的支持做多少倍的更换,你可以在通用的UIO接口方面你可以转换出转卡,这个有什么优势呢?相当于有点直销的概念,我们从原场买芯片然后自己去焊,然后去做自己UIO接口的板卡,这个和我们在市场上买的板卡有什么差距呢?它整个成本是最低的,我们的板卡甚至可以比市场上便宜25%左右。

还有一个是内存插头,现在谁知道8G内存多少钱呢?大家可能都知道以前因为台湾地震,整个全球内存颗粒,包括最近日本的地震导致全球内存都很贵,这个时候如果你对数据中心做扩容的时候,你一定会考虑先用小一点的内存,或者当有32G一根内存出来的时候,你说我不会用最大的,我用市场上主流的,但是有一天你做服务器规划的时候肯定用最大的。我们96G的支持量已经很靠前列的了,它的内存条支持的结构也是很丰富的,我们一般强调三通道,包括一条或者是两条都可以工作,甚至当你32G的条子便宜了再做升级,从整个主板结构上来看,它采用一种电源在中间,整个网线完全走直角的设计,这个带来最大的好处当你对每一个结点进行独立管理的时候,你不会碰到任何一根其他的电缆,相反现在我们看到市面上现在有很多双子星结构,它基本上采用一侧电源,一侧板卡,你在整体抽拉的时候你会碰到其他的电缆,你要终止另外一台服务器或者是相互更多的结点。

现在我们6000、7000两个系列所有的产品基本上采用的都是80以上电源转化率,包括现在我们还提供直流的供电模块,大家可以发现现在四台机器同样保持只用两个电源,这会带来什么好处呢?省材料了,它整个功率转化率上去了,如果你要计电费的话这个在五年范围内可以帮你节省不少的钱。

我们在整个服务器材料的选材上面,大家可以看一下实物,整个板上面所有的电容,包括元器件它的选型基本上当时规划是18.2年的生命周期,我们保证的是每五年为每一个独立产品的生命周期,而且在五年过程当中我们绝对不会产生任何主板变一变,芯片换一换,只要这个产品一发布稳定了,我们五年一直持续供应这个。它的用料是统一的,以前我接触过天津空客,他们跟我们聊天说服务器怎么用,他们在全球用的是惠普的,当时他们跟惠普的讲,他们沟通的时候说我们有新型的服务器要出来的,我们也不会加价,客户说你之前供给给我的幸好现在库存还有多少,惠普说大概还有来百台,客户说马上把这些运到我的库房里,不同品次,不同版本的服务器,你为了保证运行可靠性的情况下会做测试。我当时在微软的时候,那时候已经到了Windows Vista,它对于整体的系统和可靠程度要求是非常高的,其实这对于我们在云计算的领域来讲,它还是规模效应、标准化。在座的诸位无论你们对你们的客户,我们要平衡的都是严谨的作风,我们在整个产品方面一个是18.2年的生命周期,并且不产生任何版本变更,我们每台出厂之前都会做4小时的热机测试。

从整个服务器来讲我们分6000、7000两个系列,我们说6000系列是以6240为代表的6000系列产品,刚才我也说了比如说2U空间和4个节点,也包括所有硬盘都是热插拔的,每一个结点可以控制到6块2.5寸的硬盘。这种结构带来的最大好处是什么呢?尤其在互联网情况下用,我们强调颗粒度,如果大家知道数据库可用,我们要尽可能降低成本,所谓在高可用的颗粒度上面,其实我们在设计结构的时候有非常多的考虑,尤其是我们在整个6000、7000里面,从每一块硬盘来讲都是可以支持热插拔的,因为我们认为硬盘至少支持热插拔才能在这个程度进行一定的冗余,你能够保证每一块硬盘坏的时候去更换,这是一个最根本的基础,如果说硬盘换了你还要关机开机换的话,它不是在可靠环境下用的系统。

在整个结构上面也支持了业界的标准,现在在我们的6000、7000系列里面都做支持,比如说晚上你可以设定策略,所有的服务器频率降50%,甚至多核的一套系统可以关闭几个核跟你的负载节能。

在这个领域主要强调6240产品,它的应用领域还是非常广的,它主要还是强调密度和性能不减的情况下强调密度,主要是2U,4个结点,比如说你做业务逻辑的时候这个是非常实用的。对于一些特殊环境,大家知道最近都在推GPU在远程客户端,我们在这里面把2U、4个结点空间稍微扩大一点,它最大的特点就是在散热片这块,我们提供了全高散热片半高散热片,我们可以在扩出来的高度里面,也可以加两块GPU,这样的话使得你在你的服务器部署环境里面去做演算。比如说提高直接40G的带宽,都有直接的版本,它的综合成本要比独立的便宜很多。包括指数和可靠性的测试我们都做支持。

R6280是我们跟超微一起合作开发的服务器,他同样采用的是2U的结构,里面有8个结点,在每一个可抽拉的结点里面做了两块板子,包括所有的网卡、显示、USB都是完全独立的,它的结构是用AtomD525,其实我们发现现在在互联网上视频网站应用比较火,包括很多像显示器豆瓣,它的小图片的负载实际上是很难解决的问题,我们在设计的时候主要是用对外缓冲的功能,大家很清楚这个东西,其实在这里面包括是更多的硬盘独立的网卡,还有就是处理能力要求不是很高的,在一个满负荷的情况下,CPU的负载不超过20%,如果你做对外缓冲比例都很重要。所以我们在整个搭配的时候,我们做了优化版本,后来我们得出一个结论,如果我们是4G内存,后面它在250G的扩展数据比例是最高的,如果在这样一个比例里面我们规划一个做全面缓冲,它的这种比例值是最合适的,达到的效果是CPU用满了,网卡整个压力被压的很满,包括存储效率会完全应用起来,你可以把硬件充分发挥作用,并且在整体来讲它的电耗也不是很高,基本上是在320瓦左右,我们配制提供专用电源。所以在这个领域里面,我们有很多客户通过这个做视频的缓冲。

另外是我们的7000系列,它是专注性能的,尤其是像虚拟化、大规模的数据库和CPU方面是比较有特点的。比如说像7410G,这是在业界的塔式机里面唯一能放四个CPU的,你可以把它横过来,很多做网游开发的公司,你做渲染不可能一下子做渲染中心,你的设计规模达到一定程度的,你需要做渲染的时候,你前面的工作就白做了,如果你到后期做管理,把这些东西放到机房横过来可以直接上机架。

我们还有1U的四组服务器,当时在微软做规划的工程师看到这个眼睛一亮,他说这个东西太好了,客户要搭建企业的虚拟化环境买这样一个箱子就够了,这个版本我们一方面最高密度是1U的版本,同时我们还可以提供2U和4U的板块。我们在存储方面的RE436,尤其现在互联网比较流行存储技术,它强调分布式存储,包括现在大家在做互联网的时候,我对我的数据结构自己写数据库引擎。其实你更进一步会发现,你自己的存储结构,也很清楚在这么大的磁盘里面哪些比例更高一些。

现在产品目前在国内,包括刚才我们提到了235系列在国内有25款机型,这些机型我们除了有17年的技术之外,我们在国内也做了测试,我们营造了在未来云计算领域的应用关系。刚才我们讲了6000和7000这条线,我们前端有6280做整个缓冲,我们有数据逻辑处理的时候我们有6240,它是高密度的服务器。包括7000专注性能,RE436专著存储,我们有完整的产品线对应。所以大家可能会说云服务器单拿出一个不叫云服务器,我们只能说性能不错,如果从整个产品线来看,我们现在云计算正在起步和成长的阶段来讲,我们对整个后期布局做好了准备,我基本上跟大家分享的内容就到这里,谢谢大家。