10EB量级的基因大数据处理技术

如果这些人能够提早的把自己的DNA或自己相关的基因检查一遍的话其实完全可以避免,因为一旦发现这些人有相关的基因突变的话就可以警告你自己,所以你不要做太剧烈的运动、不要熬夜,有一些生活的状况是可以调节完全避免,通过有效手段能够避免猝死的发生。

还有癌症,大部分的癌症像现在的乳腺癌10%-15%跟基因有关,所以女性同胞们确实是可以通过检测你相关的乳腺癌基因来提早预防乳腺癌或者卵巢癌的发生,还有直肠癌和肺癌,肺癌10%和你的基因有关。如果你真的把健康数据做一个记录的话,其实是可以通过日常生活调节很容易避免这些严重的后果。

还有我们说的罕见病,霍金是得了渐冻症,发病率千分之0.6到1。如果我们完全想建立这样一个健康的模型,我们的样板量要足够均匀、足够大,所以才能抽样到所有类型的数据,我们觉得在一百万的时候可能把常见的常见病或复杂的遗传疾病覆盖住,能很好的建立这样一个模型来预测和预防。

接下去给大家介绍几个商业化的大家可以体验的产品,最著名的是23andMe,现在已经积累了大概80万个DNA的序列,我自己也有23andMe的结果。以前我特别不喜欢吃香菜,有一次23andMe给我发了一个邮件说发现你基因里有这个问题,这个问题的基因是不喜欢吃香菜的,我就想这个还是很准确的。

23andMe另外一个很重要的例子,它是作这个领域大数变现的第一个公司,它跟罗氏(音)合作,罗氏用它清洗完的数据,给它一千万美金,如果合作的好罗氏好像还要给他们五千万美金。这是一个例子。

第二个例子是华大内部用的小的软件,希望把我们日常生活记录下来,以后可以跟你的基因组数据对一下,请私人医生也好、遗传咨询师也好,请他们帮你看一下这个东西,给你制定生活的规律性的方案。

在这个App上可以通过扫二维码获取,里面有可穿戴设备的整合,还有你的运动情况、日常隐私可以记录。华大做了一些检测,我们做了代谢组和基因的检测数据都可以在这个App里看到。这个App我们没有大的推广,也是在做一个实验性的东西,大家有兴趣可以下载,如果大家对自己的健康足够关心的话其实需要留心自己日常的生活的数据,这样你好知道自己今后会有什么样的状况。

第三个例子是陈钢他们公司做的,也是国内在这个领域里做的比较成功的商业化的例子。因为我本人比较喜欢运动,经常跑一个马拉松,但我发现跑到10公里的时候经常抽筋,我觉得这个事情特别奇怪,把我的基因数据导到他们的系统里看我的运动相关的基因是什么情况,结果发现有些道理,在我的结果里我的爆发力还行,在短程的速度能跑到每小时十公里,但是我的耐力特别差,我没法做到很长久的运动,可能大概能解释我跑步的情况。

另外一个我很得意的是恢复能力,跑马拉松的人要三四天才能恢复,我大概第二天就能跑、能跳,基因的结果相对来说还是有一定的辅助作用。还有饮食跟运动对减肥的影响,这也是比较有趣的。

我跟我老婆经常较劲,我发现我只要稍微一结实体重立刻减下来或者稍微加一点运动量就立刻减下来,我老婆就不行,基因还是反应了这样一些例子,大家有兴趣还是可以看一下,比如你喜欢运动可以去看一下你运动的情况什么样子,对大家的生活还是有些帮助的。

第四个例子是喝酒,现在大家应酬特别多,但大家对酒精和乙醇对身体的伤害都是不知道的,这是我们近期测试的一个小的应用,测出你大概喝酒的能力怎么样,还可以告诉你究竟对你的伤害是什么样的。

如果酒精对你的伤害不大的话无所谓,如果对你的伤害很大的话就应该注意不能够喝酒,特别是肝脏的损害,同时我觉得这个可以作为挡酒的理由,如果你喝酒能力差可以把这个拿出来,基因说明了这一点,可以作为挡酒的借口。

最后这个例子是在国外,它可以给你一个盒子,你把你擦皮肤的棉签寄过去,它就可以把你的菌群测一下,只能测厚壁菌、拟杆菌、变形菌这几种。

我们为什么要收集这些数据,是不是所有这些事情华大都可以做?不是的,我们其实还是要联合社会上所有的公司和个人,来建立一个完整的生态系统,这样我们才有可能收集到这么多的数据建一个健康的模型。大概把设想写了一下,希望把数据、信息和知识通过API的形式整合到不同的四个层次,让所有人在上面开发自己感兴趣的健康应用来指导大家的健康生活。