10EB量级的基因大数据处理技术

中国IDC圈5月19日报道,生命科学的大数据还处在比较初始的阶段,否则国家也不会现在才开始提出精准医学这样的概念。所谓精准医学想通过大数据模型准确预测预防,个性化的给每个人提供健康解决方案的项目。

机能强大的人脑

作为生命科学来说首先是要认识自己,这是刚刚去世的纳什,诺贝尔奖获得者,这个图片讲的是他到五角大楼里面去帮五角大楼破解苏联密码,结果他看着满墙数字跳动的时候很自然的圈定几个数字,把苏联计划进入美国的经纬度所谓的密码数字圈了出来,帮助五角大楼瓦解苏联的进攻。

从这个例子我们应该看到其实我们每个人的大脑都是非常强的大数据处理机器,接下去我大概讲一下我们大脑为什么会这么强,大脑的处理能力有多强。我们大脑只有140亿个脑细胞,从出生到死亡基本是不会变的。为什么从出生到死亡我们的知识是不一样的,就是因为脑细胞会建立突出的连接,这个人越聪明突出的连接就越复杂。

二是大脑的能耗特别低,只有20瓦,大家在拼命思考的时候脑子会发热,不会像CPU一样热的过高烧起来。

我们做一项对比,我们把大脑跟英特尔刚出的e7的CPU对比,这样一个CPU大概有56亿个,能耗要105瓦,我们大脑在能耗上面跟CPU对比处理能力和能耗比,比现在的机器强很多。

从一生过程来看,人的一生大概能存储100PB的存储量,是美国600个国家图书馆的量,加起来是140PB,正常人是能存储140个PB。这是什么概念?比如说因特网上所有的音乐加起来就是10个P左右。大脑的集散能力也特别强,一天能处理86G的信息,如果把处理能力换算成超算的计算速度,大脑的计算速度在3.5EFlops,现在超级计算机远远没有达到。

现在最快的天河2号连续五年拿到了世界超算排名第一的计算机研究,可见大脑的计算能力相当可以。另外一个例子,我们眼睛的分辨率大概是5.7千万像素,人的眼睛到这么高的分辨率,但人的大脑还能实时处理这些图片,以每秒25帧的数据处理,大脑的数据能力是非常强的。

我们先认识一下自己的大脑还是非常强大的,在某个专业领域跟计算机领域比还是有不足,但整体比较计算机是很难超越人的大脑的。

人体大数据

我们说到大数据有两层含义,有的大数据是数量上面的,有的大数据是数据大小上面。我们再来认识一下我们自己身体其它部位的大数据的情况,人类的基因是30亿个碱基,整个身体大概是100万亿个细胞,同时在我们的肠道里有一千万亿个细菌,肠道是我们的外环境,不要以为是我们的内环境,我们的生活是内外相互作用的结果。

如果把跟健康所有相关的数据汇总在一些,看看有哪些类型,要使遗传信息有功能的话,把基因组信息翻译成RA,再翻译成蛋白 ,同时基因组还跟环境有一定的相互作用,这个相互作用是通过这里的表观组学来实现的。我们体内还有很多小分子,我们这里说的叫Metabolome,Microbiome是我刚才提到的一千万亿数量的细菌,这些遗传因素跟我们的环境有相互关系。

同时现在可穿戴的设备特别流行,日常生活中的心电、血糖、心率都可以通过可穿戴设备记录下来,这也跟日常健康有很大的关系。跟神奇的是,大家不要以为社交网络跟身体没关系,其实社交网络跟我们内在基因也是有一定的关系的,但随着研究的发展这种关系可能会越来越强。

环境对人的影响

接下去把每个类型展开,首先讲环境,每个人的健康一出生50%健康的情况就已经决定了,由你内在遗传的物质决定,DNA决定了你接下去的生活是什么样的情况,另外50%就是我们刚才说的外在的环境,会对我们的健康生活产生一定的影响,这个占50%的样子。

\" height=

这个是表观组学,这个主要反应了环境跟内在DNA相互作用的情况。在我们三十亿的碱基里面只有2%的碱基是表达基因的,另外98%在科学里面叫做垃圾基因,不管是2%的基因还是98%的垃圾基因里面都有一些“短创”,这个短创对基因组的功能起到调控作用。科学研究表明,在三十亿碱基里面我们发现了28890个,这个在有功能的2%的部分里大概有56%的基因功能是受它控制的。

要把基因组环境和人的关系建立起来的话,其实要在不同的环境里测表观组的情况,一个人需要2个T的数据来存储。