有了这些分子知识和组学知识的用到临床疾病当中来,还要建立第二个基础,就是搭建分子水平的以基因型为代表的信息核,建立这种桥梁之后才能有效把分子水平的信息转化应用到疾病的诊断和治疗当中来,那么这就是要建立所谓生物信息学、生物网络,系统生物学等等的方面。有了这两个基础就可以更好地实现精准医学,当然一个非常重要的就是精准医学的发展,是应当和当前的临床的影象学、临床的生化检验、当前临床的知识很好地融合。
精准医疗刚刚启程,97%的基因密码人类无法解读
在我们的临床密码当中,组学当中,还存在着大量的暗信息。我们的临床密码花一万块钱可以测得自己的遗传密码,但是目前能够分析从规律上的只有一小部分,这就是基因组当中的所谓暗信息。这是一段人的遗传密码,我们每个人都有。那么像这样的遗传密码,很多重要的地方是影响整个人的生命功能的。我们一个人是3-10个九次方,如果你花一万块钱很容易测一床密码,如果转定成册子,每3千个量一页,100页一册。如果你把自己的临床密码写成书,是一万册,每页3千字符。可是这个密码我们现在还无法读懂,如果一万册书每一页一厘米,我们自己的书就是一万厘米,就是一百米,堆起来有地面上排到四十层楼房那么高。就算集全世界科学家的智慧,包括生物医学家的智慧,从规律上了解的部分只有这遗传密码的3%,另外的97%实际上集目前全世界的智慧还无法解读。
首先从遗传密码来讲,那3% 是遵从中心发展的蛋白质信息,就是造蛋白质的遗传密码。但另外的97%的遗传密码是跟制造蛋白组无关的,这些信息,迄今为止我们不知道他做什么用的,这就是遗传密码当中的所谓暗物质,也是遗传密码当中的非编码序列。在而、97%的密码还不知道的情况下我们如何做到精准呢?所以离精准还差了很大的距离。
举一个大细胞的圆细胞生物基因组的例子,这是个连个细胞核都没有的简单细胞,它的85%基因都是用来编码蛋白的。所以对一个非常低等的生物,如果测完他的遗传密码, 85-90%你就知道他是如何生活,基本造哪些蛋白就知道。但是生物高等一点,例如酵母,这个是单细胞的真核生物,编码蛋白质的比例减少到70%了,而非编码的部分增加到28%。再是到多细胞生物,例如最简单的仙童(音),这时候编码蛋白质的部分减少到28%,非编码的部分增加到71%。下面是果蝇,也只是昆虫了,非编码的部分增加到82%,而97-98%都是非编码序列。这样一个比较基因组的进化逻辑告诉我们,生物从简单到复杂,从低等到高等,增加的是迄今为止我总体上还不知道规律的非编码序列,这将是对、精准也好,对基础生物学也是巨大挑战。 而这些未知的暗物质,都需要我们通过巨大的数据去发现规律,从而做出判断。
精准医疗将为技术科研和产业发展带来新的挑战
精准医学对技术研究和产业发展都提供了研究方向。其对非编码的研究无疑会对疾病的诊断治疗提供全新的诊断方向,对药物的设计研发提供新的平台;对新的物种,新的性状的培育提供一个新的基础。而精准医疗和大数据的结合,存在着核心的挑战,第一是数据量大,导致需要巨额的资金去做这件事。在的测序仪一个普通的一次运行就可以到1T的数据,全世界有成千上万个这样的仪器,包括我的组里就有所谓的得到一个T的数据,所以这些数据量是非常大的。那么每个人有3×10个九次方,测他的基因组,就需要用100万美金。用一万美金就可以同样得到自己的遗传密码。但是从数据质量来讲,他的噪音很高,同时又大量缺失值的这样一个数据源。第二个样本很小,我们要解决肿瘤的问题,但是我们知道肿瘤的变量,自变量可能成前上万,但是取样本只有百数量级。这其实也涉及到数据量大的问题,因此第二是我们需要建立合适的数学模型,使得我们能够相匹配。这将不仅仅是具体基因的问题,还牵涉到网络、生物学数据。所以跨领域的人才,科学界、IT界的精英需要共同加入到这项事业当中。而资金方向,更需要投资家、企业家以及政府的支持。期待不久的将来,我们的健康将完全可以掌握在自己的手中,彻底变革医疗系统!