超云副总裁董昕介绍超云新一代高温服务器

主持人:大家下午好,欢迎大家光临第四届中国云计算大会云基地分会场,今天下午由超云跟大家一起来分享一下在云计算和大数据时代,超云作为一家专注在基础设施的厂商在做什么,我们能够帮助大家实现什么,今天我想问一下在座的各位,有很多是新朋友,老朋友,有哪些是第一次光临云基地的,有吗?


我简单的把云基地目前的概况跟大家说一下,云基地两年以前正式成立,也是由田溯宁博士创办了中国网通之后第三次的创业,使命也是希望能够聚集人才、资本和技术,能够实现中国云的技术落地和中国云应用和产业的腾飞,目前大家也可以在板上看到很多LOGO,这些LOGO不是别的,全是位于云基地的新兴的创业型的公司,今天像我们是超云,还有兄弟公司,天云等,目前有15家公司在从事从基础设施到虚拟化,到分布式计算,到应用,甚至到集成,电信业务的提供等等,一起构成了整个云计算产业的链条,这些公司统称云基地旗下的公司,我是来自超云。超云刚才我讲到的,我们是在整个云计算的产业链里在最底层,主要是做服务器存储,以及相关的解决方案的新兴公司,我本人今天是第四次参加中国云计算大会,也是目睹整个云的产业从理想变成了概念,从概念一步步的落地了。今天在谈论云计算的时候,已经不太会谈论我们怎么去建立云,云是不是应该建设,很多很多这样的概念性的一些问题。今天我们要谈,很多是云在具体的落地过程中我们会遇到什么样的问题,我们怎么去解决,尤其今天跟大家一起来分享,在云的时代,很多新型的公司也好,或者老牌的服务商也好,全部会通过大量的数据中心来变成自己的基础设施,从而成为基础设施的提供者或者是上面的Paas、Saas的提供者,因为整个云最终的本质还是服务,所有的服务不会凭空出现在这个市场,它最终都会在服务器,要不在存储,最底层的基础设施会产生一个全新的需求。


今天跟大家一起来分享一个话题,在整个云数据中心的场景下,我们作为一个服务器的公司,怎么在这个场景下帮助大家实现更高的计算,更低的功耗,怎么帮助大家是现在一个数据中心中服务器最大的优化,传统的IT的应用,服务器是一个通用型的服务器,无论是跑OA,跑ERP,跑什么,服务器区别是不太大的,在云的场景下还再继续延续。但是如果各位在美国或者欧洲看到一些新的云计算服务中心的提供商,比如Google、雅虎,他们的数据中心完全进行定制和优化,里面所有的机架、供电、服务器全部是进行二次优化和重新设计的,从而使的这一系列的定制化的服务器能够更好地匹配这些公司的业务,无论是搜索还是社交,还是一般的Web,所以,在这种场景下,整个的数据中心发生了重大的变革,从传统的支持企业或者比较一般的互联网应用转向了支撑大规模的互联网服务。在这个时候,我们也看到整个数据中心市场在发生重大的变革。我们今天会跟大家分享在整个数据中心商,大家都会谈一些比较重要的话题,比如进行数据中心能耗的优化,进行电耗的管理,等等一系列的措施,其实在整个全球大家也听了很多,目前整个数据中心能量的消耗占到全球所有能源消耗的1.5%,这是一个非常庞大的数字,这个数字意味着什么?几乎可以意味着这是50个电站全年的发电。


与此而来一系列的碳排放,无论通过空调还是服务器本身能源的消耗也好,每年产生的碳排放相当于41万辆汽车,也就是2.1亿吨,为了让这些大规模的数据中心制冷,实现这么低的温度还需要大量的煤、水做制冷,每年在数据中心商消耗的水达到3亿吨,很恐怖的数字,可以为全球60亿人每人洗一次澡。


当然,还有一些环境污染的问题,比如大量采用氟利昂制冷,总之,每年数据中心能耗的消耗上全球每年270亿美元,所以,这就是为什么数据中心作为一个未来的朝阳产业,但是却有很多人非常关注它如何进行绿色节能,如何建设一个节能型的数据中心。在十二五的规划中,不仅仅在北京市,我这边举了一个例子,前几天北京市经信委正式的一个意见,如何推进软件和信息服务业中节能工作的意见,特别指出在十二五的规划中,一定要鼓励采用类似仓储式的,集装箱式的数据中心提升整个数据中心的能效,让整个数据忠心耿省电,优化应用软件和服务器的架构,从而实现数据中心满足业务的情况下节能减排。


不仅仅在北京,其他很多的城市经信委都在大力推广贯彻这一系列的工作。大家也许会觉得为什么数据中心会这么费电,为什么这些数据中心会造成这么大的能源浪费?其实所有去过数据中心的人都知道那边的数据中心很冷,现在进出不需要穿白大褂,但是这一系列的几乎在国内都会运行在18—21度的区间,有些相对温度比较高的可能会运行在25度相对的高温。大家可以想象在一个充满服务器的数据中心里,要使整个数据中心的温度保持在18—21度,这需要大量精密的空调制冷散热,才能使整个数据中心降到这个温度,才能使想象中的服务器进行正常的工作。所以,问题就来了,为什么这个数据中心一定要在18—21度,这个温度是不是一个最合理的温度,我们能不能降低它,能不能提高它,这在经济上,在省钱上意味着什么?之所以18—21度,这是一个历史遗留的问题,在很早以前,尤其是这些半导体和服务器的设计,往往会设计的在功耗上比较大,无论是制程也好,散热效果也好,使得它对温度的需求相当的苛刻,一旦超出这个温度的范围,老式的系统就完全无法工作了。


但是我们反过来再来想,现在很多的一些新型的电脑,包括大家所用的台式的电脑上面显卡的温度可能是60度,70度,80度,甚至90度,为什么整个电脑还可以良好的运行,为什么在服务器上没人敢尝试呢?真的会有问题吗?其实也不一定。因为还有更多的原因是这些服务器的厂商承诺了我要有我的SLA服务质量的保证,要有保修的一些条款,所有这些条款都是基于我的服务器在你的数据中心里必须在一个有空调的温度下进行运行,这是合理的吗?其实现在全球发生了一些质疑。
    最后大家一直忽略的一点,在传统的数据中心里服务器不多,几台,几十台,几百台,有一批精密的空调吹,耗电量不足为奇,随着互联网业务的不断成长,底层的数据中心也发生了数量级的一个增加,在这种情况下,为了给这些服务器进行制冷带来的所有的空调散热,结构的成本都已经摆在每一个数据中心的拥有者面前。所以,从前两年开始,在全球范围内大家都在希望把下一代的数据中心的运行温度进行提升,由传统的18—21度提高到一个更高的温度,好处其实是显而易见的,这样意味着我们可以有更少的投资在空调上,有更大的电力是用在了IT设备上,而非制冷设备上。


我们做过一个统计,全球范围内呈现一个金字塔的趋势,一类是传统的数据中心,大家熟悉PUE,能效损耗比大家可以知道,目前绝大部分的数据中心的PUE值一般是在2或者3,也就意味着这些数据中心的运行温度是从18度到21度,最高到25度左右,这一系列在全球范围内占整个数据中心的77%,但是随着一些像谷歌,像一些其他的公司在推广绿色节能的数据中心之后,也有很多人开始讲传统的数据中心做PUE的优化,做相应的一些改造,比如做一些事情,空调节能器的重新改造,比如外界室温低于数据中心良好运行温度的时候,空调是可以不用制冷的,而是完全通过外界的自然风来进行散热的,同时还可以进行一些冷热交换,从而保证温度和效能是最大的。尽管如此,这一系列的数据中心在全球范围大概占到90%左右,现在已经有一些新型的数据中心把整个结构做了模块化的处理,比如我们兄弟公司云箱,他们已经把数据中心从IT设备到动力设备,电池组已经变成模块,搬到集装箱里,实现了数据中心的模块化,这个时候整个数据中心通过这样一个改造之后,很大程度上工作的温度可以达到35度到40度,这些数据中心在全球占了9%。还有一些更激进的公司可以使数据中心工作的温度在40度,大家听起来这是一个很高的温度,觉得我的设备是不是都无法工作了,但是大家可以这么想,为什么这些人可以把自己的数据中心提高到这样的温度,并且在世界范围内进行推广,除了刚才所说的,现在在整个的市场上采用这种高温数据中心的公司已经非常多了,谷歌已经全面切换到至少27度,而不再是18—21度。Sun做过一个小的调查,发现数据中心的温度每提高1度,意味着可以省4%的能源成本,这是一个很庞大的数字了,尤其对于现在一些大型的互联网公司、电信公司、企业的数据中心,能够降低4%的能源成本这是一个非常好的事。微软把数据中心的温度提升了2—4度,一个小型的数据中心每年基本上可以节省25万美元的电费。Facebook去年从数据中心到机架的整个项目进行开源,他们也是跑在27度。


这时候大家就可以反过来看,其实让自己的这些设备运行在一个更高的温度上,这应该是一个未来从全球范围来看,在云和大数据的应用场景下都是一个大势所趋,都已经成为一个不可逆转的趋势。为什么我们现在在国内还看到很多很多大型的数据中心里面还是有很多传统型的服务器,还是有相对比较低温的环境来运行,这里面作为厂商,尤其是作为一些服务器的厂商,其中还有很多的工作要做,还有具体的课题等待开发。


回到今天的话题上,面对这么一种全球的数据中心能耗来进行优化,温度来进行提升,我们超云在里面都做了什么样的事情,来保证我们未来可以拥抱高温的数据中心,我们总结下来有四点。最基本的一点,超云会在第一时间采用最新一代的芯片,无论是目前的32纳米,还是未来的22纳米,超云会第一时间采用这种相对来说能效比更好,发热效率更高,同时性能更好的新一代芯片,我们也是在今年的3月份正式发布了基于英特尔下一代产品芯片组的超云服务器,从芯片的程度帮助大家来实现CPU功耗降低和效率的提升。


同时,我们非常积极的参与全球的高温数据中心和高温机架的标准,叫做HTA,高温运行环境的标准。我们基于这个标准,已经对我们的服务器做了一些全新的改良和全新的设计,从而使得我们的服务器不仅仅可以运行在传统的18—21度的数据中心里,更重要的是它可以在一个更高的温度下进行7×24无故障稳定的运行,这是对整个数据中心的拥有者来说,好处是非常明显了。
    在硬件层面做了一些优化,采用了更新的制程之后,软件层面提供一整套支持数据中心能耗管理的平台,可以从整个数据中心到极架,到PDU,到服务器,到电源,甚至到具体的硬盘,CPU插槽进行监控,并且可以进行策略性的能耗,比如在业务比较少的时候关掉一些盒,业务比较少的时候进行主频的调节等等一些工作,我们都可以通过整个数据中心的能耗平台来进行完成。
    其实做了这些工作,就已经可以满足能够采用自然风散热和制冷的主要的数据中心的需求。采用自然风散热的技术,大家可以看整个在地球上用自然风代替空调来进行散热的几乎超过60%。大家也在门外看到未来北京市跟内蒙合办的未来京蒙的超大规模的云计算数据中心,选址就选在可以进行自然风散热的内蒙。


同时,在这种情况下,整个数据中心的温度和服务器运行的温度就可以提升到一个新的高度。有很多朋友会问,OK,除了做了这些之外,超云还做其他的事情,能不能帮我们进行能耗的节约,其实我们觉得我们在硬件上,在结构上,在设计上做的这些考虑之后,我们还有一条相对来说是与众不同的思路,我们的思路是希望针对应用,针对客户最终要跑的软件进行服务器架构的调整,进行服务器的优化,这点不知道大家可不可以认同,其实我非常认同这点。


举个小的例子,我们一个比较大的客户是淘宝,它以前做内容缓冲,跑在一些非常通用和标准的服务器上,在这种情况下发现它的CPU,它的内存,它的网络已经跑到百分之百,已经跑满了,几乎没有潜力可挖了,但是CPU利用率只有10%,是非常低的状态,这种情况下它做虚拟化的意义几乎没有,因为它的硬盘已经完全跑满了。所以,他有90%的CPU能力被浪费掉了,也就意味着这些电被白白浪费掉了,超云帮助他把CPU进行一个更换,以这个为理念重新设计一款面对CPU应用服务的服务器,我们当时采用了上网本凌动处理器帮助他实现云计算应用优化的服务器,最终我们做了应用优化之后,内存硬盘的网络完全不变,还是可以跑到百分之百,它也可以跑到百分之百,即便如此,它的电耗还是远远低于传统的。这样淘宝进行大规模部署后,不仅仅一次性的投入比以前可以便宜30%,更关键的是未来尤其是运维的时候,由于电费的节省,节省了60%左右的(OPIS)。我们在硬件上针对特定软件的优化,把不必要的功能去掉,从而实现服务器能耗最优化的管理。


超云新一代高温服务器思路设计上,一个是结构,一个是关键件,还有整体服务器的设计。结构上要考虑到是一个更高的温度,所以,我们会放弃一些,主要的设计思路是2U的高度,更关键的是我们在散热工程上做了一些重新的调试和优化,使内存的位置,以及重要的局部热点的位置能够在整个新的风道散热下实现一个很好的散热过程,除此之外,我们在组件的选择上有别于传统服务器的选择,比如在高性能,在一些高端,往往考虑发热量更大,但是性能更强的CPU,我们设计高温服务器的时候,选用更多的其实是一种最主流和通用的80W到95W标准的,在市场上80%的都在用到的主流的双路服务器,同时对我们的内存做了一些重新的改良,使得我们整个从组件到结构都可以支撑更高的温度,当然大家也很清楚,目前还有一个小小的瓶颈,在于传统的机械硬盘,它的物理承载的最高温度是35度,一旦超过35度,机械物理的这块硬盘就会发生一些比如报错,会发生一些故障和潜在风险,这个时候如果在更高的温度下进行运行,我们采用SSD来实现整个服务器运行更高的温度,实现更好的能耗的优化。


整体的设计上还有一些细微的地方,比如大功率的风扇,转数可调的风扇,以及一些新型的散热片,都是设计上我们做的一些改良,更关键的我们新一代的高温服务器,全系列支持能耗管理的系统,就像刚才我说的,不仅仅管一个服务器,管某一个CPU的功耗,还可以管到某一颗具体的硬盘,某一个具体的内存条等等一系列构成了我们新一代的数据中心优化服务器的一些设计理念。


作为结果,我们目前新一代的数据中心优化服务器我们的测试,在两个机型上我们的测试是可以7×24×365天运行在0—47度的环境,这是一个非常高的温度,基本上在普通的室内都可以进行部署,一定程度上意味着客户可以把大量空调的钱省掉,这是我们制冷的费用,省掉。
    目前的服务器已经开始正式的面向市场了,我们也会在未来新型的数据中心,比如哈尔滨的数据中心上进行新一代高温服务器的尝试和推广。除了传统的2U双路运行47度高温的服务器,我们在1U上也做了探索和优化,目前1U的可以全年无故障的运行于35度的高温,这个对于一般的数据中心和一般的城市来说,也几乎是可以自然风来进行散热,来进行制冷,而不需要空调来做。
    大家可以看到即便如此,做了这一系列的工作,但是整个服务器在参数或者性能上其实并没有任何的缩水,我们在参数上一样是支持最新的DDR3的内存,支持1600兆的UD,帮助客户实现更好的内存延时。整个CPU上采用最新一代的英特尔的E5至强双路主流服务器,我们已经有4—5款新一代英特尔平台的超云的高温服务器,我们的测试结果一般情况下在1U的高度里可以稳定的运行35度,2U可以稳定的运行在47度这样一个高温,这也是在整个市场上目前能够做到高温服务器相对来说比较超前的。


谈到服务器能耗管理,这离不开我们的一些合作伙伴,比如英特尔,超云目前已经是英特尔全球的数据中心能耗管理系统的技术合作伙伴,在去年通过这项认证,使得整个超云未来新一代的G9系列的服务器全部能够支持英特尔数据中心能耗管理的系统,这个系统的好处可以做到精细化的能耗监控和基于策略的能耗管理,而这一系列的一些东西都会对最终用户开放相应的接口,也就意味着最终客户可以相对比较容易的把对服务器,对机房的监控和传统的一些网络管理变成网络管理平台的一部分,从而实现更好的更加有效的运维。


通过我们一系列的数据,我们最后发现在整个部署了智能能耗管理平台的服务器,我们几乎可以在类似的性能前提下去实现30%的功耗的节省,这对最终客户来说,也是一个非常大的收益。同时做整个功耗策略和调整的同时,不会对目前的业务有任何影响,可以保证整个业务的连续性,也就意味着客户在机架中可以摆更多的机器,同时也会帮助他进行相应能耗的节省。


除此之外,我们刚才讲了所有的高温服务器,包括能耗管理软件都有我们真实的客户,我们已经帮助了省一级的政府,电子政务云实现了整个新一代服务器结构的定制化设计,因为我们觉得未来基于云的场景,传统的服务器的结构和它的理念一定是不适应的,未来无论是谷歌还是Facebook,他们都是基于自己的应用进行重新的服务器的设计,我们也帮助最终的客户实现了基于开放式架构的高温服务器的环境,我们最终实现的一个结果,我们还是同样2U的高度里,可以帮助他实现两排双路服务器在一个空间中。同时,我们在整个设计中开始采用Open结构,机箱架构是开放的,不仅仅意味着没有机箱盖,还有一系列架构的改动,都会帮助客户实现更好的散热,同时提升机架密度,因为在服务器中,重量最重的往往是机箱,在整个机柜中如果能把机箱的重量去掉,对它意味着可以在一个固定承重的地板上放更多的服务器,我们目前把这一系列都已经设计完毕,并且最终交付给客户,2U实现两个可以没有任何线缆的物理节点,每个节点都是双路,整个开放的服务器全部都是可以稳定的工作在30—35度的高温环境,这也意味着对于客户来说他不需要有太多的钱花在制冷上。


从性能和扩展上来说已经满足了目前主流的应用,比如有足够的4个或者8个硬盘,这一系列都是最终帮助我们实现了针对某一个省级平台实现了它的电子政务云从硬件定制化的优化。


刚才讲了很多,如果我们把服务器的运行温度从21度提升到25度,提升到35度,国外也有一些机构做了一系列的测算,他们最终发现对于一个已经有两万台服务器的数据中心来说,如果传统的没经过温度优化的数据中心,它一年的电费可能要花800万,制冷的成本。如果运行温度设计为27度,可以省56%,如果把运行温度设置在35度,可以有一个非常巨大的开支的节省,会节省85%的制冷的成本。一旦数据中心运行35度,PUE几乎是1.25,已经是全球相对比较领先的值了。所以,在国外越来越多的数据中心把它的温度提升,同时采购这种可以支撑高温运行的服务器,来作为他主力的服务器。我们从今年开始,超云正式的推出了完美的运行于35度和47度的新一代的服务器,我们在今年的下半年开始逐步的从一些省市的数据中心,再到一些国家级的大规模的数据中心,已经开始尝试进行一个批量推广。


大家听了很多,作为一个新兴的服务器厂商,如何使我的服务器运行在一个更高的温度下,而且是7×24×365天的运行,帮助客户节省成本。简单介绍一下超云,超云是云基地旗下的一员,2010年正式成立,田溯宁博士是超云的董事长,我们在创立之初得到了不仅仅是宽带资本的一系列投资,同时我们也得到了北京市政府和美国的一系列投资。所以,可以帮助我们超云在一个比较短的时间内,从2010年到现在不到两年的时间里,不仅仅推出了一系列的面向云计算的高密度低功耗的服务器,比如今年3月8号推出的G9服务器,以及像我们今天这样的运行35—47度高温的服务器,我们都是在很短的时间内推出,不仅如此,我们在整个市场上也取得了一系列小小的成绩。比如整个中国移动、中国联通的集采,360,百度,在里面都会看到我们超云的身影,无论云查杀,云服务还是在一些云平台上,都可以看到我们新一代的高密度低功耗,同时面向应用来优化的服务器在他的数据中心出现。


今天跟大家主要分享的是跟我们的服务器相关,更高的计算密度,更低的能耗,针对应用做优化,今天我们也是把运行于更高温度的优化服务器推向市场。除了服务器本身,我刚才也讲到了很多,我们有一套软件,可以帮助数据中心规划他的能源消耗,来观测能源消耗,从而基于策略进行能源的部署和调整。除了我们的硬件和基础设施平台之外,其实还有一系列的解决方案,这个解决方案称之为软硬一体一个开箱即用的方案。目前超云有三大软硬一体交互的解决方案,云柜,我们已经集成了交换、存储、计算,以及上面的云平台的软件,作为一个一站式的服务,整柜交付的云平台管理软件和平台交给最终用户。我们还有另外一个,一会儿有同事跟大家分享的开箱即用的私有云的云存储解决方案,称为云仓,也是基于我们的云存储的软件和我们针对软件来优化的硬件,打包成一个面向企业私有云场景的这么一个云存储的解决方案体系。


最后,目前大数据在市场上非常热,超云在大数据上研究的更多的是我们怎么能够把我们的硬件和主流的软件做更好的优化,比如我们的云慧这个产品就是基于硬件,量身订做的Hadoop的中心,我们成本更加低廉。服务器,我们的管理软件,以及软硬一体是目前超云主推的产品。
    我们的客户,百度、中国电信、中国联通、中科院、淘宝、国家电网,等等一系列,不到两年的时间里积累一系列的比较知名的客户,不仅仅说我们在理念上有完全一致的地方,都是针对云来进行相应的优化,来进行设计,还有一些大家对整个新兴的公司,快速的研发,快速实施和部署的速度表示认同。
    在整个的合作伙伴体系上,和主要的软件的合作伙伴关系,比如天云趋势,YOYO,等等云基地内部的公司,和整个软件、硬件合作伙伴的体系共同进步,包括在硬件和针对特定的软件进行硬件优化,我们还有一系列软件的开发商务合作伙伴会基于我们的硬件再优化软件,我们最终还是觉得在整个云的市场上,软件和硬件一定程度上会更耦合,耦合性更高,这样会获得更好的运算效果,也意味着有更好的效率和经济。


最后跟大家分享一下我们基于最新一代,也是在市场上最早推出新一代超云G9服务器。Gartner做的2012年十大IT发展趋势,专门提了几个,除了虚拟化、大数据、云计算,特别提了第8条,就是计算/每平方英尺,这就是我们通常说的计算密度的概念,无论是虚拟化还是大数据,还是云计算,其实都是一个应用或者一个商业的模式,但是这一系列的应用对底层的架构,尤其是对底层的计算提出了一个全新的非常庞大的需求,传统的服务器也好,或者存储也好,在这种浪潮下将会被淘汰,是因为他们没法做到更好的在单位平方英尺或者单位平方米下提供更多的CPU,提供更多的核,无法做到,只有新一代的云计算服务器,或者针对应用来做优化的服务器才能做到这一点。


我们把这一代服务器称之为超云G9服务器,计算的性能相对上一代提升80%,内存性能提高50%,同时能源消耗上至少降低15%,这都是一些非常具体的,非常有吸引力的数字。我们已经把多款产品从基于上一代的英特尔的架构,目前已经切换到新一代的架构产品,涵盖了我们做的2U两节点,2U四节点的服务器,以及我们2U一节点的服务器,同时今天把新一代的G9平台和我们的高温服务器做了一个有效的结合,从而使未来运行在35—47度的服务器完美的支持英特尔架构。
    同时针对市场的需求,即将发布一款基于新一代CPU的业界创新刀片服务器,使超云在刀片服务器上填补一小部分平台,更好的面对虚拟化场景。未来一两个月会正式的在市场退出。我们新一代E7000-G9,20个计算节点的超高密度的服务器。所有未来新的刀片全部是基于新一代G9平台英特尔的产品,这样超云已经实现了传统机架、云应用优化的服务器,以及新一代刀片的服务器,同时大家可以继续关注我们,我们未来还会针对CPU,还会继续更新Hadoop的服务器,硬件和软件优化上还有新一代的解决方案。


接下来请我们的同事和大家一起来看一下超云怎么针对Hadoop提供优化,我们怎么提供一站式的云存储,谢谢大家。