专家张云泉:大国超算的“土创”逆袭之路

 2018年8月5日,国家超级计算济南中心宣布:核心器件全部独立自主研发的神威E级超算原型机顺利通过科技部专家组验收,投入使用,为我国在2020年研制成功百亿亿次计算机打下坚实基础。

九三学社社员、国家超级计算济南中心主任张云泉介绍,“E级原型计算机将在全球气候变化、空气动力学、新药设计、新材料发现、海洋大数据、人工智能等领域发挥重要作用。”“通过超级计算机的加入,可以把过去新药侯选化合物的发现周期,从过去的几年时间,缩短到几星期的时间,极大地降低新药的研发成本。”

“神威·太湖之光”初露锋芒

超级计算,简称超算,也叫高性能计算,在科学与工程领域应用非常广泛,它与理论研究、科学实验一起成为人类探索未知世界的三大科学手段,被称为支撑科学发现的第三个支柱。


超算也是人工智能的重要支持平台,为人工智能提供强大的算力支持。可以说超算与国民经济、工业企业创新、国防科技、国家安全等国计民生的方方面面都息息相关。


而用于高端能力计算的高性能计算机也被誉为计算机中的“珠穆朗玛峰”。


2017年11月,美国超算大会公布新一期全球超级计算机500强榜单,中国自主芯片研制的“神威·太湖之光”超级计算机再次蝉联榜首,以每秒12.5亿亿次的峰值计算能力、每秒9.3亿亿次的持续计算能力实现“四连冠”。


 “神威·太湖之光”完全采用“中国芯”——“申威26010”众核处理器——这个只有5厘米见方的小小薄块集成了260个运算核心,数十亿晶体管,达到了每秒3万多亿次计算能力,单芯片计算能力相当于3台2000年全球排名第一的超级计算机,1分钟的计算能力相当于72亿人同时用计算器不间断计算32年,相当于200多万台普通电脑——它也是全球第一台运行速度超过10亿亿次/秒的超级计算机。


“核武器都要靠超算模拟,核禁试会禁止所有地下核实验,只能用超级计算机模拟,如果没有这个能力意味着核武器的落后,落后就要挨打。”
神威·太湖之光’超级计算机已经应用于若干代表未来“黑科技”的研究领域,涉及天气气候、航空航天、先进制造、生物医药、新材料、新能源等20个方面,支持国家重大科技应用、先进制造等领域计算任务几百项。”张云泉说。

“神威E级超算原型机”再发神威

E级超算是指每秒可进行百亿亿次数学运算的超级计算机。作为大国综合实力的象征、衡量科技创新实力的标志,E级超算已成为当前各国竞相角逐的战略制高点。E级超算将在解决人类共同面临的能源危机、污染和气候变化等重大问题上发挥巨大作用。目前,美国、日本及欧洲等国家和地区先后提出了自己的E级超算研发计划,我国也将E级超算的研究写入了国家“十三五”规划。

E级计算机作为新一代信息技术领域的大科学装置,对交叉学科的推动效应、对科技研发的支撑效应、对高层次人才的凝聚效应、对相关产业的带动效应相当显著,是新旧动能转换的强劲引擎。

神威E级原型机由硬件、软件和应用三大系统组成。硬件系统由运算系统、互连网络系统、存储系统、维护诊断系统、供电与冷却系统组成,软件系统由基础软件、并行操作系统环境、存储管理系统、并行语言及编译环境组成,应用系统由行业应用计算平台、人工智能框架和典型示范应用组成。

面向E级计算机研制需求,研制团队在多态融合计算体系结构、新一代申威众核处理器、互连网络、软件定义海量存储、高效供电和强化相变冷却等方面,取得了重大技术突破,对E级计算机研制方案和技术路线进行了全面系统验证,为E级计算机的研制成功铺平了道路。

芯片完全自主可控

1996年,为加强我国高端并行计算机系统的研制,国家并行计算机工程技术中心正式挂牌成立,开始了神威系列大规模并行计算机系统的研制。近年来从神威蓝光、神威太湖之光,到神威E级原型机,我国已经走出了一条核心技术自主可控之路。

神威E级原型机的处理器、网络芯片组等核心器件全部实现国产化。运算系统全部采用具有完全自主知识产权的申威26010+众核处理器构建;高速互连网络系统全部采用完全自主知识产权的申威网络交换芯片、申威消息处理芯片构建;存储和管理系统采用申威多核处理器构建,实现了对该领域产品的国产化替代。

软件生态日益完善

随着神威系列超级计算机系统的部署与应用,神威系列超级计算机系统从基础软件、并行操作系统、存储管理系统、并行语言、编译环境、高性能数学库到应用软件等生态得到日益完善。系统软件由完全自主研发的神威睿思操作系统、神威睿智编译器、高性能数学库等构建,在此基础上,神威E级原型计算机首次在国产超级计算机上构建了人工智能软件生态链,基于神威深度学习库和框架,开展了对弈系统、医疗影像识别、机器翻译多个大规模人工智能应用,其中机器翻译应用的数据规模、并行规模和训练速度世界领先。

截至目前,E级原型计算机已完成包括全球气候变化、海洋数值模拟、生物医药仿真、大数据处理和类脑智能等十二个领域的35项重大计算任务。其中,22项应用具备扩展到E级计算机整机规模的能力,6项应用入围被称作超级计算应用领域诺贝尔奖的“戈登贝尔奖”。

未来应用前景广阔

神威E级计算机系统研制始终与应用紧密结合,应用领域日益拓宽,从气候气象预报、深空/深海/深地探测、生命科学、天体物理、航空航天等国家战略领域,进一步拓展到互联网、云计算、大数据、人工智能、基因测序、金融计算、先进制造、现代海洋等领域。神威E级计算机作为大科学装置,一方面为国家海洋强国战略打造“深蓝大脑”,另一方面满足健康医疗、航空航天、气候气象、生物信息、先进制造等领域的一批国家科学与工程计算重大需求,成为促进国家科技创新、经济发展以及中国制造走向中国创造的助推器。

刻在里程碑背后

“神威系”“大显神威”的背后,是科学家们长期不懈的追逐和创造。


十几年来,张云泉在各个场合和媒体为中国超算的发展“鼓与呼”,他认为:一是要抓住历史机遇,将我国超算的发展模式从超算机器性能拉动,向应用需求拉动转变,探索出一条健康的超级计算系统发展道路。二是成立若干国家级超算行业应用软件国家工程实验室,制定我国超级计算机应用中长期研究规划和路线图。三是转变“重硬轻软”思维,持续稳定支持超算应用软件研发。四是鼓励国家超算中心联合应用部门组建行业应用联合实验室,进行程序移植,自主研发大型并行应用软件。五是重视计算科学学科建设和人才激励机制。推广“超算理论+多学科应用”课程,促进多学科交叉融合。六是加强人才队伍的建设,为超级计算的发展提供源源不断的人才供应,“将超级计算与大数据和人工智能等进行深度融合创新,将成为进行新旧动能转换的主要手段。”张云泉说。

在努力为中国超算研究扫除障碍、创造条件的同时,张云泉也在不断通过自己的研究为中国超算跨越式发展做出应有的贡献。

过去十几年,张云泉研究员的主要工作是做为项目负责人为神威超级计算机研发了三代高性能数学库,为包括申威系列处理器在内的多款国产处理器研发国产高性能多核和众核并行数学库CLeXML和WeXML,主要包含BLAS、LAPACK、FFT、直接解法器和迭代解法器等模块,具有完全自主知识产权,遵循国际主流高性能数学库接口标准,且性能高于国际主流高性能数学库。高性能数学库作为支持2016年我国首次获得戈登贝尔奖的三大底层技术之一,获得2017年中国科学院杰出科技成就奖。


然而,做国产超算软件的研究必然是困难重重,最大的困难还是没有先例可循。张云泉说,在研发高性能数学库核心算法时,需要深入体系结构层面利用汇编语言高效实现核心算法的核心循环性能,在我国自行设计的申威处理器上开展这种优化工作是开创性的,国内外可参考借鉴工作少。“我们创新性的提出了一种适用于数学核心算法的“模板法”优化方法AUGEM,用于自动提升多种关键核心函数的性能,具有重要的实用价值,相关工作已发表在CCF A类国际高水平会议SC和PPoPP上。”
神威E级原型机的研制成功,标志着研制E级计算机的技术条件和工程条件全面就绪,E级计算正拥抱未来。


神威E级计算机于2020年完成研制部署,将率先跨越百亿亿次量级台阶。采用的新一代众核处理器有望成为世界运算速度最快的处理器,节点规模可扩展至数十万量级,支持系统性能从1E到10E量级的跨越。E级计算机将面向国家战略需求,解决一批科学与工程计算领域的重大课题,为国防安全和经济建设提供国际领先的计算环境。

------------------------------------------------------------------------------------
本文作者中国计算网专家专栏张云泉  转载请注明出处
搜索微信公众号: 
cncompute_Mall   直接关注,更多惊艳的资讯等你来关注~您也可以来投稿~

微信关注公众号“cncompute_com ”,为您奉上最新最热的计算头条资讯,干货满满。