大数据:生物医学的待解之题

大数据时代正在深刻影响生物医学研究:海量数据需要在不同系统和机构间共享和分析,但因缺乏统一的标准而使研究者无从下手;信息技术和生物医学的结合更加紧密,两者兼通的复合型人才也明显缺乏。

面对如潮水般涌来的海量数据,如何更好地利用,成为信息技术和生物医学领域共同面对的挑战。

大数据时代扑面而来

2012年,美国政府发布了《大数据研究和发展倡议》,旨在利用大量复杂数据集合获取知识和提升洞见能力,投入金额高达2亿美元。

所谓大数据,或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助决策更积极目的的资讯。

前不久,在以“信息技术与未来医学”为主题的第二届“与大师同行”学术交流活动上,来自耶鲁大学、麻省理工学院与哈佛大学博劳德研究所、美国劳伦斯伯克利国家实验室、中国工程院等研究机构的国际知名学者,对大数据对生物医学的影响、大数据时代生物医学研究标准化困境和复合型人才缺乏难题进行了探讨。

中国工程院院士韦钰表示:“生物医学正进入大数据时代,很多研究都是大数据研究、大数据存储,从大数据里面挖掘新信息。”

她举例说,比如现在诊断某种疾病,医生可能需要调用患者的基因数据、从小到大的病历等大量数据。

近日,深圳华大基因研究院院长汪建曾表示,大数据与大科学是未来生物经济发展的核心点。“要解决当前生命科学的问题,需要从时空状态对生老病死进行解读,这就需要大数据。这种大数据揭示的就是大科学,从而衍生出大产业。”

仅以深圳国家基因库为例,其中的样本量已达130万份,其中人类样本115万份,动植物、微生物等其它样本15万份。至2013年底,预计实现1000万份可溯源生物样本的存储,2015年底实现3000万份生物样本的存储。

而这仅仅是不断膨胀的大数据的冰山一角。

标准化困境浮出水面

不同系统和科研机构之间难以实现标准化的数据共享和分析,这令很多科学家无所适从。

美国特拉华大学生物信息学和计算机生物学中心主任吴慧华表示,上述问题是生物医学与信息科学结合过程中遇到的关键难题。目前获取海量数据变得越来越方便,但一家机构与另一家产生的资料有很多差别,把这些信息集中分析时就需要一个共同的标准。

以对大数据需求最为迫切的医院为例。美国劳伦斯伯克利国家实验室基因组科学部主任鲁宾(Rubin)表示,理想状态下的目标是建立统一的电子病历系统,这些信息应该有统一的标准,但现实并非如此,各个医院存储的数据标准不同,而且不同系统存储的信息也不一样。

据吴慧华观察,目前在美国等国家,不同机构和资料库产生和存储的数据都是遵从不同的标准,标准化问题在业内尚未达成共识。

对于标准化之难,鲁宾解释说,数据量大并非关键,而是数据类型的多样性导致了难以统一标准。

他说,比如基因测序,虽然数据量很大,但属于同一类型,就比较容易在同一标准下进行分析,而生物医学方面的数据就困难得多,涉及血压、心跳等多种不同类型的临床和数字化信息,有些数据之间难以关联,这便造成了标准化的挑战。目前各个国家已经开始重视这个问题,信息科学和生物医学的学者需要更加紧密的合作。

在吴慧华看来,中国科学家应该积极加入国际标准的讨论、设计和制定中,更多参与国际上的生物医学信息共享。

复合型人才凤毛鳞角

标准化虽然艰难,但与会业内人士普遍认为,当务之急是解决生物医学和信息科学兼通的复合型人才缺乏困境。因为两者结合过程中的标准化及一系列问题的化解,需要研究者对两个领域都有很深的造诣。

据与会专家介绍,目前鲜有高校主动设置生物医学和信息科学的交叉学科和院系,横跨这两个领域的复合型人才大多源自学者自发或在导师引导下的选修。

耶鲁大学医学院干细胞研究中心主任林海帆对自己的一位学生印象深刻。这位学生曾经主动提出关注生物信息方面的研究,当年很多老师以为他不务正业。最后他选择了兼修信息科学,现在已经是生物医学和信息科学兼备的稀缺人才。

“我发现有的学生虽然选择生物专业,但其实很有数学天分,我们研究所信息部的主任就是这样培养出来的。”林海帆说。