高性能计算助力揭开生命奥秘

  当“天河二号”以每秒33.86千万亿次浮点运算速度再次荣登全球超级计算机500强排行榜榜首的时候,我一直有两个疑问:一是33.86千万亿次计算能力是不是通过增加服务器数量就可以实现,有没有这么简单?第二什么应用需要如此强大并行计算能力,所谓计算能力是不是一个数字游戏。

  基因研究和超级计算机

  如今,这两个问题都有了答案。首先要实现千万亿次浮点运算不是那么简单的。以天河二号为例,参与LINPACK测试的节点有16000个,耗时5个多小时,在这个过程中,只要有一台服务器出现故障,测试就会宣告失败。这意味着如果节点服务器的故障率是万分之一,1.6万台节点服务器就意味着测试100%不会成功。因此,参与运算的机器数量越大,失败的风险越高。另外,节点之间的网络延时、效率都是问题。总之,要构建一台千万亿次超级计算机还是有很多技术难点要克服。

  有关第二个问题,我在华大基因也找到了答案。

  说到基因,我是的的确确的门外汉。但也知道围绕基因研究存在的巨大争论。有人说人类翻开基因这本原来只有上帝才能阅读的“天书”时,谁有权拥有能洞悉个体生命的基因信息?有人将其称为困扰人类社会的新斯芬克司之谜。但这也从另外一面说明了基因研究所带来的成就。

华大基因高性能计算研发主管王丙强博士

  华大基因高性能计算研发主管王丙强博士

  在华大基因展厅,可以看到很多与基因研究相关的成果,从分子选育石斑鱼——青龙斑,到小米,我们看到这些石斑鱼不仅体积硕大,据说肉质鲜美;小米则高产优质。这都是依托基因组学的生物分子育种成果。在生物医药、健康等领域,基因研究都有着光明的前景。

分子选育石斑鱼

  分子选育石斑鱼

经过基因改造过的3岁半生榕树

  3岁半榕树(右)和轻木(左)对比,对轻木正在展开基因方面的相关研究

  有关基因争论不做评述。我关心地是,基因研究和超级计算能力之间的关系。

  在华大基因,我采访了华大基因高性能计算研发主管王丙强博士和华大基因健康云运营总监官鑫先生。

  谈到基因对于超级计算的需求,王丙强表示主要有三个维度,一个是数量的增加,从人类基因组计划,到千人基因组计划,数量的增加导致对计算量的不断需求。与此形成鲜明对照的是测序成本的大幅度降低。

  “以前做1M的基因序列测序,2001年大概需要6000美元,现在大概只要10个美分,降幅超过一万倍,这也为商用创造了条件。” 王丙强说。

  针对同一个人,按照不同时间段,搜集样本进行分析,其计算量是非常大的。因为仅基因数据已经是指数增长了,加上时间维度,其计算量更是大幅度增长。

  另外一个与超级计算机计算能力相关的技术对基因未知因素的探索。对此,王丙强表示:如今容易做的都做了,有些基因功能是比较容易鉴别出来的,以树种为例,有些树长得粗壮一点,有的长得快一点,很容易把相关基因找出来。但有些是比较复杂的,而有些是有关联,要这个搞清楚至少就需要更多的计算量。“剩下的都是不容易做的事情。”王丙强说。

  据介绍,我们人有大概1万亿个细胞,每个细胞有23对染色体,染色体包含DNA,由ATCG不同碱基序列构成,数量大概有30亿。生命密码就包含在这些序列中。从研究进展看,已经掌握的编码(基因)有数万个,且有更复杂的非编码区域等待探索,这需要更加大量的计算。

  “有很多应用,用一台计算机算1~2年也可以算出来;但另外一些问题,就不能在有效时间内完成,例如某些分析需要4~5年,这就是超出了这一代测序技术的有效期,就没有意义了。” 王丙强说。

  “在临床上,也需要更强大的计算能力,花几十个小时才能把数据分析完,这在很多情况下大家接受不了,特别一些非常紧急情况下,要求迅速得到结果,这都需要强大计算能力作为保障。” 官鑫说。