十亿亿次之后 E级计算现“曙光”

  2016年的夏天,最热的不仅有天气,还有超级计算机。

  6月20日,在第47届全球超算TOP500榜单中,中国超算“太湖之光”一骑绝尘,斩获冠军宝座;同时,中国军团以167套超算的成绩首次超过了美国(165套),拿下超级计算机份额冠军。

  在这届榜单中,无论是“点”还是“面”,中国超算都取得了冠军,这是值得中国超算界骄傲的成绩。更为深远的意义是,“太湖之光”的计算峰值已经达到十亿亿次,为下一个计算高度——“E级计算”揭开了序幕。

  “E级计算”将达到每秒钟百亿亿次的浮点运算,是“太湖之光”的十倍。从目前来看,实现这个目标并不容易,还需跨越能耗、可靠性等多个壁垒。

  但“E级计算”并不遥远,在近日召开的曙光2016技术创新大会(IDIC2016)上,李国杰院士指出,中国希望能在2020年实现E级系统,比美国的预期要早四年,而中科曙光则是实现这一目标的排头兵。

  中国工程院院士、曙光公司董事长李国杰

  对于这一目标,曙光公司总裁历军表示,曙光目前在E级计算方面的研究开发已经取得了阶段性的成果,在E级技术、E级应用和E级服务方面都已经做好了准备。

  技术破壁

  历军指出,实现E级计算,还要翻过几道墙,如访存墙、可靠性墙、能耗墙、扩展性墙和E级应用创新。例如,E级计算系统可能会包含六万个处理器,其稳定性以及高速互联的可靠性将带来巨大挑战;按照当前超算系统来推测,E级系统功耗可能将达到40~50兆瓦,对于任何一个客户来说都难以承担。

  曙光公司总裁历军

  所以,要实现E级计算,技术上就要有新的创新突破。

  在IDIC2016上,曙光副总裁沙超群展示了曙光E级系统原型机:采用层次化设计,处理器、加速部件到节点,多个节点形成一个超节点,多个超节点组成一个硅元,由多个硅元形成超级计算机系统,曙光将其称之为“6D-Torus”结构,可以扩展到10万个以上的节点规模,满足E级计算的扩展性。

  除了扩展性,“6D-Torus”硅元结构最大的优点在于局部通信性能特别高。“为了实现6D-Torus,我们设计了一个硅元路由器,在这个路由器可以达到500端口以上、每端口100G的吞吐能力。我们会使用这种硅元路由器完成整个路由的算法,来优化路由算法,保证这个系统的扩展性和稳定性”,沙超群表示。

  在能耗和散热方面,曙光E级系统将采用一种非常“科幻”的散热方法。在去年的ICDC大会上,曙光展示了地球模拟装置,该系统采用了冷板式的冷却模式,把水通过散热片连接到服务器的处理器上进行冷却,实测PUE 达到了1.17,而下一步,曙光的E级超算系统里面会采用进一步的浸没式液冷服务器。

  “我们将采用相变(蒸发)冷却的模式对E级系统进行制冷”,沙超群表示,曙光E级超算整个系统都会浸泡在液体中,通过相变带走热量,然后这些气体会移到一个气体准直当中,通过常温水的冷却变成液体,重新回到服务器里面。“蒸发的潜热是比热的效率的100倍,也就是说这是一种最高效的冷却模式,可以让系统零风扇、零噪音,可以实现整机的PUE小于1.1。”

  另一方面,曙光E级超算采用了弹性的、可定义的计算部件,性能功耗比能够达到每瓦10GFlops以上——在超算Green500榜单中,全球最绿色的超级计算机性能功耗比是6.6GFlops/瓦,也就是说曙光E级系统性能功耗比将会提高两倍。

  同时,得益于自适应超融合的软件系统,曙光E级超算可以重定义计算节点,从而大大拓展了应用领域。“比如说今天有的应用需要更多的加速器,有的应用只需要处理器,有的应用需要均衡的加速器和处理器,我可以通过软件配置把它进行变化”,沙超群表示,这样就可以让超算系统不光能够服务于科学计算,同时可以承担大数据、人工智能、深度学习以及云计算等方面的应用。

  应用先行

  对于中国超算来说,“应用”是一个老生常谈的话题。曾有专家指出,中国现在是一个超算大国,但还称不上是超算强国,因为中国超算硬件水平已经领先世界,但应用水平相比欧美、日本等国家还有差距。