比特观察:写在国家超算中心被禁运之后

  日前,美国政府发表公告,禁止英特尔公司和英伟达公司向中国的4家国家超级计算机中心出售英特尔至强系列高端型号至强CPU、至强Phi协处理器以及英伟达公司的Tesla系列协处理器。理由是这些高性能计算产品可能用于模拟核试验工作。

  看到这条消息的第一感觉是无理取闹,因为美国的超级计算机里很可能也有中国企业制造的元器件,虽然不是CPU、协处理器这种核心部件,但也可能是网线、IC、晶振或其他,那么是不是中国也可以对其禁运呢?另一方面,再高性能计算领域,除了汽车、化工、物探、生物医药之外,武器模拟和设计是超级计算机工人的主要应用领域,以此为理由禁运显然过于牵强。再笔者看来,美国政府出此下策显然是在包括超算性能在内的很多方面落后于中国之后恼羞成怒的决定。此前,中国超级计算机天河二号的性能已经接近美国顶级超算“泰坦”性能的一倍。

  不过既然事已至此,还是让我们冷静的分析下这一禁运对中国来说是机会还是噩耗吧。

  外国“芯”再中国超算中的作用

  花开两朵,各表一枝,咱们先来说说此次禁运产生的短期负面效果。

  根据公开的资料,中国顶级超算“天河二号”采用英特尔至强E5-2600系列处理器并搭配至强Phi系列协处理器。而协处理器的加入正式天河2号能够蝉联全球超算排行榜冠军宝座的最重要原因之一。

  缺少了高端CPU和协处理器,中国的下一代超算讲很难在性能上有所突破。因为目前限制超算性能发展的主要原因是规模太大导致的功耗、散热、管理和网络问题。因此,目前全球超算发展的主要方向还是在一定的规模内,依靠提升单个计算节点的性能和效率来提升超算的整体性能。而如果缺少了新一代的处理器和协处理器,中国超算讲很难在整体性能上有飞质的提升。

  中国“芯”的发展情况

  首先,我们必须要澄清一点,那就是中国在计算机领域并不是没有“芯”。中国完全自主研发的的飞腾1000和SW1600等处理器虽然在绝对性能上无法与国外产品相抗衡,但这两款处理器在通用性上已经取得了很多突破。

  目前,飞腾1000已经在天河1号、天河2号等超算上进行了部署和应用,从目前的情况来看,飞腾1000已经能够与协处理器等其他计算单元协同工作。除此之外,飞腾1000的适用性也相当广泛,能够在商用服务器、交换机等众多设备中使用。而浪潮、曙光等公司对于这款处理器目前也有比较全面的技术储备和多种成熟解决方案。

  SW1600处理器是江南计算机所根据Alpha架构所开发的第三代处理器,拥有16个RISC内核。SW1600也是2012年中国建造的神威蓝光超算的核心。由于SW1600在浮点性能上表现突出,神威蓝光也是当年世界排名非常靠前的顶级超算之一。

  除了两大处理器产品之外,中国在超算另一大核心部件——高速互联芯片上也已经达到了自主研发的水平。之前我们提到,除了CPU和协处理器之外,内部互联架构同样是超算的最核心组成。而天河2号所采用的Express-2高速互联架构则完全由国内自主研发。这一光电混合的网络能够有效承载超算所拥有的数万个节点之间的互联互通需求,并对超算内部网络低延迟、分包小的特点进行了细致的优化。可以说Express-2高速互联网络对天河2号蝉联全球超算性能宝座同样起到了至关重要的作用。

  被禁运之后我们要在哪方面发奋?

  虽然我国在众多核心部件上取得了很大的突破,但距离建造和使用全球顶尖超算还是有距离的。

  因此首当其冲的还是要继续在中国芯的研发上继续投入,并早日推出新一代国产高性能处理器芯片。

  虽然我们有中国芯,但在中国芯相关的软件应用开发方面,我国目前所储备的人才并不多。因为我国现有的大部分超算软件编程人员所熟悉的架构依旧是传统的OpenMP(英特尔平台)和CUDA(英伟达协处理器所使用的开发环境)。而在国产平台上,除了军工领域之外,其他科研领域的相关人才储备依旧非常欠缺。而如果相关禁运将持续很长时间的话,这方面的人才培养和储备将是未来我国超算事业发展的主要方向之一。

  另外,超算商用化是目前国际上对超算行业发展的共识。但如果中国超算在架构上与普通商用平台有太大差距的话,超算中心和整个超算行业将很难摆脱政府输血度日的尴尬局面。因此,如何来两种平台之间推出一套通用且高效的开发编译环境同样是超算行业发展索要解决的一个难题。