SC11:亚马逊HPC云进入最新Top500

在线零售巨头亚马逊的云计算单元Amazon Web Services在一年多以来一直在推销其EC2云独特的HPC实例。本周,亚马逊公司在美国西雅图举办的SC11超级计算会议上宣布他们采用Intel的至强E5处理器增强了HPC云,而且该HPC云通过了Linpack测试,进入了最新一期的Top 500 超级计算机排名中。

  HPC用户在物理位置邻近的节点之间需要更快的10Gb以太网,而且对节点的可用性具有严格的要求,这样他们才能妥善地调整工作负载,在完全相同的结点之间获得均衡的性能。在察觉到这一需求后,亚马逊在2010年7月份推出了专用的HPC实例。当时采用的服务器配置了两颗Intel至强X5570处理器,每颗处理器核心数目为4个,频率为2.93GHz。

  进行虚拟化后的物理服务器节点称之为集群计算实例,为HPC应用提供了33.5个EC2计算单元以及23GB的虚拟内存。最初,AMD将集群规模限制为8个节点或者是是64个核心,而且理论的性能峰值大约为750 gigaflops(这一性能指标稍稍高于Nvidia Tesla GPU)。亚马逊向科技网站El Reg透露,他们已经测试了由880台服务器构成的子集群,经Linpack测试,该子集群能够持续交付的性能达到了41.82 teraflops。

  在一年以前的SC10超级计算会议上,亚马逊为每台物理服务器增加了两个不带风扇的Nvidia M2050 GPU,每个GPU能够提供的双精度浮点数学计算的峰值为515 gigaflops。这为想使用混合超级计算机但没有大量硬件方面投资的客户提供了方便。在某些情况下,也为从来没有兴趣购买硬件设备的研究人员使用CPU-GPU集群提供了可能。

  本周,亚马逊公布了运行在EC2云之上的CC2(Cluster Compute 2)实例,配置的处理器是两颗Intel八核至强E5处理器。打开超线程后,CC2实例将包括32个线程以及88个EC2计算单元,这几乎是原有HPC实例容量(现在称之为CC1,由亚马逊在16个月之前推出)的三倍。

  按照亚马逊的行话来说,CC2实例在技术上被称为cc2.8xlarge instance,其为HPC应用提供了60.5GB的虚拟内存以及3.37TB的磁盘存储。其处理器频率为2.6GHz,和CC1一样,节点之间采用10GE网络进行连接。

  如果你按需购买,CC2实例的价格和16个月之前推出的CC1实例相同,为2.4美元/小时。如果提前预定或者当场购买价格更低。与此同时,亚马逊将CC1实例的价格降至了1.3美元/小时,和原来相比,价格下降了45.8%。在硬件供应商那儿不可能获得这么多的价格折扣。CC2实例能够运行Linux或Windows Server 2008 R2实例,这些实例运行在针对x86平台的Amazon Xen Hypervisor之上。

  为了说明云计算和数据中心的物理服务器构成的HPC集群没什么两样,亚马逊选取了1064个CC2节点进行了基准测试。

  该集群拥有17,024个频率为2.6GHz的至强E5核心,理论性能峰值达到了354.1 teraflops。在Linpack测试中,云集群持续交付的性能达到了240.1 teraflops。租用这种配置CC2实例的成本为2554美元/小时,如果预定或者现场购买价格将更低。即使有很大的折扣,购买这样一个集群也将花费数百美元。顺便提一句,亚马逊的虚拟HPC集群在Top 500中排名第42位。

  和CC1实例相同,目前只有北维吉尼亚州的数据中心才提供CC2实例。现在你就可以租用两节点的CC2集群,但是如果你想租用更多的节点,那么必须和AWS取得联系才行。亚马逊说2012年将在其他的数据中心增加CC2 HPC实例。