美国将发展大数据提升到战略层面

美国国家卫生研究院宣布,由国际千人基因组计划创建的最大的人类遗传变异研究数据集在亚马逊网站云服务(AWS)上免费公开。截至目前,数据量已经达到大约200TB,相当于1600万个塞满文本资料的文件柜或3万多个标准DVD的容量。该数据集的规模极为庞大,几乎没有哪个研究机构具有足够的计算能力对其中进行有效利用。现在AWS将千人基因组计划数据集免费公开,供研究人员自由访问和使用,他们只需为自己使用的计算服务付费。

能源部:通过高级计算技术加速科学发现

能源部将斥资2500万美元建立可扩展数据管理与可视化研究所,帮助科学家对数据进行有效管理。

美国能源部将斥资2500万美元建立可扩展数据管理、分析与可视化(SDAV)研究所。在能源部劳伦斯伯克利国家实验室(Lawrence Berkeley National Laboratory)的组织下,SDAV研究所将汇集6大国家实验室和7所著名大学的专业知识和经验来开发新工具,帮助科学家对能源部超级计算机上的数据进行有效管理和可视化处理。此举将进一步简化和加速开发流程,使科学家们能够利用能源部的研究设施开展更加卓有成效的科学研究和发现。目前能源部的超级计算机上同时运行的数据流在规模和复杂性方面均呈现不断增长的势头,因此对这些新型工具的需求也更加迫切。开展的主要项目计划包括:

高性能存储系统能够对千万亿次的数据进行分析处理,从庞大的科学数据集提取信息,发现其主要特征并理解其间的关系。系统广泛适应于从能源部到电网,包括宇宙学和天气数据、传感器数据等。

生物和环境研究计划:大气辐射测量气候研究设施是一个多平台的科学用户设施,可提供重要的大气现象的精确观测研究。主要用于应对从数以百计的文件中迅速采集和提交解决方法的挑战,以满足用户的需求。

美国核数据计划是一个多方面努力、涉及7个国家实验室和两所大学的项目,提供跨越多个领域、核物理、编译和交叉检查、对所有原子核的重要性质的相关实验结果,维护和广泛使用的专用数据库。