科学大数据亟待建立共享机制 两大问题困扰平台建设

随着大数据时代的到来,为科学研究提供底层架构的基础信息资源日益受到业界重视,越来越多的科学研究和发现依赖于全面、完整、准确的科学数据的收集和利用,这也为科学数据的快速积累和发展带来了前所未有的机遇。

在25日举行的第三届科学数据大会上,与会专家就我国的科学数据现状和前景进行了讨论。专家认为,目前我国在科学数据资源管理方面进行了大量工作,取得了一定的成绩,但仍未实现有效集成和充分利用,科学大数据的开放共享等问题还亟待解决。

科学大数据服务科技创新

据介绍,科学数据包括科研人员通过长期观测、试验所获取的各项数据以及科技应用、研究活动中所产生和积累的具有科学价值的数据和相关信息。科学数据具有明显的潜在价值和可开发价值,并能在广泛应用过程中增值。

国家科技基础条件平台中心主任叶玉江在接受采访时表示,不同于我们经常接触到的商业型大数据,科学大数据更多的服务于科学研究,学术属性更强。“当代科学技术发展呈现出明显的大科学、定量化研究特点,科技创新越来越依赖于大量、系统、高可信度的科学数据基础,对科学数据的综合分析,本身就是科技创新的一种方式。”叶玉江说。

相关报告显示,海量科学数据的产生对生命科学、天文学、空间科学、地球科学、物理学等多个学科领域的科研活动带来了冲击性的影响,科学研究方法发生了重要的变革,开展科学研究首先要尽可能多的收集和分析与研究主题相关的科学数据。

两大顽疾困扰我国科学数据体系建设

国家科技基础条件平台中心提供的数据显示,近十年我国公共财政先后支持建设了上万个规模不等、质量各异、应用程度不同的科学数据库。这些数据库覆盖了科学技术的各个领域,广泛存储于各科研院所和高等院校。据不完全统计,目前我国主要领域科学数据资源所在机构近40家,基本形成我国各领域科学数据中心雏形。

在叶玉江看来,我国科学数据建设仍然没有形成有效的开放共享体系。一方面,科学数据广泛分布在课题组、科学家,甚至科研人员个人手中,一些行业部门或单位的数据库往往局限于本部门、本单位使用,甚至个人专用,缺乏部门间的交流和沟通,更没有形成面向社会的科学数据开放共享。各类科技计划所产生的科学数据,也没有得到有效的管理和利用。科学数据资源重复采集、重复建设、分散管理的问题仍然普遍存在。

另一方面,长期以来,由于国家和单位在科学数据方面的经费投入不足,导致许多科学数据库按照项目方式一次性建设,缺乏持续的数据来源,已濒临“死库”而逐渐降低或丧失其应用价值。

这些问题已经成为科技界和科技管理部门正在思考并着力解决的突出问题。

解决问题需要做好顶层设计

国务院2015年发布的《促进大数据发展行动纲要》中提出要发展科学大数据。积极推动由国家公共财政支持的公益性科研活动获取和产生的科学数据逐步开放共享,构建科学大数据国家重大基础设施,实现对国家重要科技数据的权威汇集、长期保存、集成管理和全面共享。

《“十三五”国家科技创新规划》中提到,要建立科技资源信息公开制度,完善科学数据汇交和共享机制,加强科技计划项目成果数据的汇交。加强各类科学数据的整合和质量控制,完善科学数据汇交机制,推动科学数据的汇聚和更新,加工形成专题数据产品,面向国家重大战略需求提供科学数据支撑。

叶玉江表示,未来在建设国家科学数据中心的过程中,需要针对科学数据共享长期存在的问题,从顶层设计出发,一方面通过政策强制措施解决科研单位和个人对于科学数据的“保护主义”,另一方面,要充分听取各方意见,通过汇集各个领域专家的智慧,对国家科学数据中心建设形成完备的框架搭建和发展思路,同时借鉴国外先进经验,加快推进我国科学数据的开放与共享。

科学数据中心的建设需要各方的努力和长期的建设准备,需要政府部门和科研单位通力合作。截止2015年底,在国家科技基础条件平台中心指导下建设的六个领域科学数据共享服务平台累计建设、整合和规范化改造科学数据集近5000个,基本整合了本领域权威科学数据库资源。叶玉江表示,我国科学数据开放与共享的体系正在展开,“十三五”时期,科学数据中心建设将有阶段性成果出现。