基因暗信息浮出水面，将打破肿瘤治疗低成功率困境

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2017年05月03日 来源：贝壳社

编辑推荐：

　　4月20日，谷歌与Verily宣布启动长达四年，万人参与的大型健康项目，欲打造人类健康地图。对1万名志愿者的血液、唾液和粪便等样本进行癌症液体活检、基因组分析和肠道微生物菌群等多种分析。

作者：来源：4月20日，谷歌与Verily宣布启动长达四年，万人参与的大型健康项目，欲打造人类健康地图。对1万名志愿者的血液、唾液和粪便等样本进行癌症液体活检、基因组分析和肠道微生物菌群等多种分析。

基于精准医学的疾病诊断与个体化治疗已成为全球医疗发展的必然趋势，且未来将不局限于疾病治疗，功能将前置到疾病预防和健康保健等广阔领域中。然而，精准医学如火如荼的发展背后，却面临着不容忽视的重大问题，人类对自身遗传密码的了解还处于非常早期的阶段。

陈润生院士认为，除了占遗传密码3%的编码蛋白质的基因序列外，非编码的RNA所蕴藏的基因暗信息，对疾病的诊断治疗将提供全新的视野，为药物设计的研发提供全新的平台，为动植物新品种、新性状的培育提供全新的基础。

由中国生物医学工程学会和中国医学科学院主办的“2017中国生物医学工程大会”近日举行，贝壳社为活动提供全程媒体支持。中国科学院院士陈润生发表了“基因组、大数据与精准医学”的主题演讲，现将演讲精华内容整理如下：

2020年，精准医疗足以影响中国整体GDP

2015年1月20日，美国总统奥巴马发表了2015~2016 国情咨文，开启精准医学研究之路，我国在近两年以精准医学为主的重大专项也开始立项，到目前为止，一共有60个项目，总资金大约12亿元，已经开始运行，下一期精准医学的项目也在评审当中。

精准医学由美国开始，进入20世纪末期，开始划时代的项目——破译人类自身遗传密码，之后整个生物医学研究就从表述进入到分子时代，在人类科学史上是空前的。

破译自身遗传密码后，积累了大量数据，发现很多位点变化直接和人类重大疾病相关，这造就了精准医学的基础。每个人每个细胞中有30亿个碱基。目前花5000~6000就可以在国内测自己的遗传密码，预计到今年年底或明年年初，花100美金就能测自己的遗传密码了，相信以基因组测序为代表的分子水平信息的获得会很快变为常规的检测手段，会大量涌入医疗单位，成为医疗和生物医学研究中基础的事实。

精准医学的本质用一句话概况，是组学大数据和医学的结合，精准医学和传统医学相比，唯一不同是增加了以基因组为代表的分子水平的数据，是大量组学数据的涌入。组学大数据包含两层含义，一层是基因组为代表的数据获取，但是由于这些数据太大，所以要指导和生物医学的关联，必须用现代大数据物解析的办法来挖掘海量数据的内涵，所以，另一层是大数据的生物学医学内涵的深度挖掘。

组学数据引入到临床中，未来的深远意义是导致医疗体系发生概念及本质上的变化：从当前治疗过渡到未来的健康保障。未来的精准意义是，在任何人任何生存时期，都可以对组学数据进行测量，根据测量了解机体健康状况，进行适当的评估和干预，因此未来的精准意义下的医疗体系是面向全民的健康保障体系，而不是现代针对病人的诊断治疗体系，由于概念上的变化，可能导致相应新兴产业的出现，估计2018年全球相应产业市场规模可达2238亿美金。有估计到2020年，精准医疗相应产业可达1.8万亿美金，这足以影响国家总体GDP，有深远影响。

所以精准医学已经成为新一轮科技竞争和引领国家发展潮流的战略制高点，美国也在积极推动领域研究，美国是准备测量100万个自由人的遗传密码，现在已经测完68万人了。欧盟和日本都在开展精准医学计划。

精准医学四大细分产业前景

精准医学在哪些方面开始促进相应新产业的发展呢？至少在4个方面，我们国内相应产业已经实现了：

第一个是海量数据库和样本库的产业出现，精准医学是10万~100万量级的样本的获取、存储和使用，对应的是百万量级的数据的存储；有人估计在近期可达到100亿美金的规模；据统计，2015年生物样本库市值将超过22.5亿美元。至2018年生物大数据的市场总额增长至76亿美元，年复合增长率达到71.6%，生物数据的商业份额已经初步体现。2015年1月，罗氏制药子公司Genetech向23 and me注资6000万美金，用于共享23 and me收集的帕金森患者的基因数据，并基于数据信息研发帕金森病的治疗方案；

第二个是以基因组测序为代表的组学数据的获取，BBC research数据显示，全球基因测序市场总量从2007年的794.1万美元增长至2013年的45亿美元，预计未来几年全球市场仍将继续保持快速增长，2018年达到117亿美元，但随着测序成本下降，成为全民能实现的项目，但我认为相应经费绝对不止117亿美金，要大得多；

第三个分子诊断也是性价比最高的产业，是基于海量数据挖掘新的疾病分子标记和新的治疗药物靶点，虽然复杂但性价比极好，已经成为生物医药行业新热点。一般新药出现，单品药物市场可达到100亿美金量级，海量数据出现后会带来无数疾病诊断的新靶点和药物治疗靶点；据Markets and Markets公司估测，2018年的全球市场市值将达到79亿美金，2013~2018年间的复合年增长率为9.7%；

基于精准医学理念的个体化治疗市场规模日益扩大，美国十大商业保险公司已将50余项疾病个体化诊疗分子检测项目列入医疗保险，巨大市场空间吸引众多医药公司开展研发，目前已有多种个体化诊疗产品上市。截止2013年，美国FDA已批准100多种个体化药物，重点关注慢病和癌症。

第四个产业是新的医疗设施，如健康设施、健康从业人员在内的大健康产业圈，这个产业圈估计2018年可以到达2000亿美金。上述四个产业在国内已经兴起，相信未来会发展得更好。

实现精准医学要做哪些准备？有两个基础，一是组学大数据，精准医学是组学大数据和临床医学的结合，所以必须获取组学大数据；第二个是搭建分子水平上的微观信息和疾病表型之间的关联。两个基础建立后再和现代影像学、生化学结合起来，精准医学才能发展得更好。

基因暗信息背后的产业机遇

精准医学目前处于什么阶段？个人观点是精准医学刚刚起步。在组学数据的获取和分析上，在大数据的处理上，都存在难以克服的重大挑战。这些挑战诸多，我今天只讲一个挑战，由此就能看出精准医学也只能是刚刚开始。

基因组有大量暗信息。遗传密码非常容易测得，现阶段6000块就能测完，未来600~700块就能测完，就能得到3x109的遗传信息。问题是对于这样的遗传密码，我们的知识疆界在哪里，能解释多少？目前对于基因组的解释，人类目前的水平是，真正从规律上能完全解释的部分，大约是遗传密码的3%。换句话说，全世界的科学家能测完遗传密码，能精确解释的只有3%，这3%就是编码蛋白质的基因。另外97%我们称作遗传密码中的非编码区，迄今为止，这是暗的，我们依然不能了解。在这样一个背景下，如何做到精准呢？97%的非编码区都不知道是干什么的，当产生变化后，它的生物学意义就无从知晓。

我举一篇文献为例，发表在2010年Science上，2001年人类基因组第一次破译时，科学家原本以为30亿碱基里能找到10万个基因，但吃惊地是只发现不到3.5万个，蛋白编码区只占整个基因组的1.5%，难道其余基因组暗物质都是无用的么？所以这是非常严重的问题，很多高端人群去测自己的遗传密码，不是没用，能用的、可分析的只占3%，这就是目前的现状。

从精准医学意义上看，我们的遗传密码是暗的，但从基础研究来讲，却有无限创新的机会。这97%为我们缔造了非常多的原始创新机会：

第一个方面，从遗传密码来讲，把人的遗传密码和其他进化等级不同的遗传密码相比较，Coding代表从规律上已经了解的遗传密码。Non-coding非编码区，代表迄今为止不知道功能的部分。

可看出，单细胞原核生物大肠杆菌是如此地简单低等的生物，85%的遗传密码都用来编码蛋白质，所以测完后就大致知道它是如何生活的。酵母，是单细胞真核生物，稍微高等一些，编码蛋白质的部分就少了（70%），非编码区增加（28%）；线虫，是简单的多细胞，只有960个细胞，但已经是较为高等的多细胞生物，用来编码蛋白质的部分只有28%；果蝇，已经是昆虫了，编码部分只有17%，人类编码部分只占1.5%，非编码区增加到98%。

这说明我们也许会认为从生物从简单到复杂，低等到高等，基因越来越多，蛋白质越来越多，恰恰相反，这是错误的，实际上不知道功能的非编码部分突飞猛进地增加。说明从演化逻辑看来，非编码序列一定具有更加重要的生物学功能，一定和生物更加高等、更加复杂的功能相关联。

第二个方面，有人会认为遗传密码中有很多冗余，这也许是正常的。但97%是否发生了信息，是否活动，用生物学角度讲，它是否有转录本呢？如果有不同地活动，证明97%是存在的，是活跃地，是每时每刻都在工作，事实确实如此。全世界有几十个实验室都百分百地都找到了来自97%序列的转录本，只是这部分转录组不造蛋白，而是以RNA形式发生功能。这样结果就充分证明97%的非编码区内是生物功能的重要组成部分，绝大部分的转录产物是非编码RNA，物种间最主要的差别也是非编码RNA。

下面，我举例说明，非编码RNA与几种疾病的关系，以发现的个别功能原件与肿瘤相关的研究为例。

第一个是PCGEM1（前列腺特异性RNA基因具有细胞增长促进功能），是来自97%的转录本，过表达能导致前列腺癌；第二个来源97%的转录本叫HIS-1，该基因在脊椎动物中高度保守，在小鼠中发现可导致白血病，在致癌通路中能控制细胞周期进程；第三个是MALAT-1，可导致非小细胞肺癌，肺癌是我国发病率最高的肿瘤，发病率每年都在递增，其中80%是非小细胞肺癌。

这三个例子说明肿瘤的病因完全可以来自非编码区，我们现在所有医院的临床指标都来自3%，蛋白编码的基因部分，而治疗的靶向药物也是针对那3%的，97%的基因突变导致的肿瘤在目前水平下是发现不了也治疗不了。这是肿瘤治疗遇到的很大问题，肿瘤分子标志物的成功率很低也是很好理解的，97%没有纳入到疾病的诊断治疗视野当中，不止肿瘤，心脑血管病、代谢疾病也有97%的非编码基因在起作用。说明目前要做到在分子水平上精准地预测疾病必须开发97%的巨大领域，它和所有疾病都相关。

这是我们和协和的赫捷课题组共同研究的成果，在97%当中发现肿瘤标志物，能很好地区分食管鳞癌的分期及预后；另外也会找到97%的转录本，可以影响肿瘤干细胞的干性（肿瘤干细胞中长链非编码RNA IncTCF7能促进人类肝癌干细胞的自我更新，2015年的研究成果）；还有最近刚刚上线的研究成果，发现97%的转录本对共有免疫系统具有巨大作用（长非编码核酸IncKdm2b调控淋巴细胞机制研究，2017年发表在Nature Immunology）。还有非编码的转录本H19，医生肯定清楚，P53是很重要的蛋白，是我们的保护神。97%中的H19也是我们的保护神，如果它不发生突变，可以通过类似细胞凋亡的途径，使得某些癌变细胞凋亡。

数据说明，还有许多非编码基因还没被发现。人类3%中大约有2万个元件，97%有多少元件没有数据。但可以以老鼠举例，几年前，日本遗传研究所（RIKEN）得到小鼠全部转录本的克隆，获得约181,000个全长的RNA转录本，其中编码蛋白质的转录本仅有约20,000个，其余约161,000个转录本全部归属于非编码RNA。一个新元件从没有到发现其功能一定能发表在三大核心期刊CNS上，这就是原始创新的机会。

从过往经验看，占人类基因组3%的这部分，一共有50个诺贝尔奖金获得者，面对未开发的97%，将有望诞生更多的诺贝尔奖获得者。所以，非编码区的研究对疾病的诊断治疗将提供全新的视野，为药物设计的研发提供全新的平台，为动植物新品种、新性状的培育提供全新的基础。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号