啥!?人类基因组还没有真正完成全基因组测序呢!

【字体: 时间:2017年08月04日 来源:

编辑推荐:

  或许大家还记得2003年来自“纽约时报”的报道—— “科学家称人类基因组已经完成了DNA的测序”。那一年“人类基因组”这一历史性成就不仅被《Science》和《Nature》杂志争相报道了,同时也登上了世界各地的新闻头条。然而,事实却存在着一些问题。

或许大家还记得2003年来自“纽约时报”的报道—— “科学家称人类基因组已经完成了DNA的测序”。那一年“人类基因组”这一历史性成就不仅被《Science》和《Nature》杂志争相报道了,同时也登上了世界各地的新闻头条。

然而,事实却存在着一些问题

“事实上,广而告之中的‘已经完成了的基因组测序’却并没有真正完成,”来自Whitehead研究所的实验室负责人Eric Lander说道。在政府资助的人类基因组计划中,Whitehead研究所做出了非常大的贡献。Eric Lander还说道“所谓的人类基因组‘已经完成’,不过是一个专业上的术语罢了”。


 
著名遗传学家 Eric Lander


 
著名基因组学家 Craig Venter

另一个基因组学家Craig Venter也向公众表示:“客观公正的说,人类基因组其实从未完整的进行过测序。”

作为一个在测序技术早期有着卓越贡献的人物,哈佛医学院的生物工程师George Church也如此说道:“我敢保证,不仅人类基因组并没有全部进行测序,其他任何一种哺乳动物的基因组也没有全部进行过测序。


 
哈佛大学遗传学教授 George Church

因此,我们可以看出业内人士所了解的,与外界通过新闻报道所了解到的有所不同。他们认为真正的测序完成应该是构成人类的23对染色体的DNA中的每一个字母,也就是A、T、C、G每一个碱基的序列都已经确定的被检测了出来。事实上,在2001年,科学家们**次完成了人类基因组的草图,并且于2003年完成了基因组测序的*终版本,在这一点上,确实没有向公众说谎。美国国立卫生院(NIH)对“人类基因组是否完全进行了测序”的问题做出了解释,首先对这一问题表示了肯定,但指出这是在现有技术下的“*大限度的完成全部测序”。

或许也没有多少人在意这一问题,因为错失的那些序列似乎也并不那么重要。但如今我们发现,在某些情况下,例如癌症或是自闭症,这些错失的序列恰恰扮演着非常重要的角色。

“在上个世纪八、九十年代,也就是人类基因组计划刚刚启动的时候,很多人认为这些错失的序列是没有功能的。”来自加州大学圣克鲁斯分校的分子生物学家Karen Miga说道。“但这种情况已经不复存在了,”在某些形式的癌症中,被称为卫星序列的区域恰恰出现了异常,她说,“在这些区域中,一些重要的变化起到了非常重要的作用。”

Miga认为这就像是在未知的非洲进行活化石探险,无法探寻的区域似乎是一种遗憾。而对未测序的区域进行测序,则是人类遗传学和基因组学的*新前沿。

在5月的有关合成基因组的会议上,以及6月国际干细胞研究学会上,Church都提出了这一观点。“大多数还没有完成测序的区域与衰老和异倍体(染色体数量异常的情况,如唐氏综合征)有一定联系。”生物工程师Church还提出,大约有4%~9%的人类基因组还未完成测序,而Miga也认为约8%是未完成测序的。

而DNA测序仪就是造成基因组测序中出现这些空缺的重要原因,测序仪不会像读一本书那样把人类基因组的序列从头到尾逐一读取。相反,这一技术首先会将含有30亿个碱基的23对染色体随机拆成细小的片段并复制出多个副本。无论是运用Sanger测序法的人类基因组计划时代,还是在应用高通量测序的今天,一个片段测序所得到的数据大概是在1000个碱基序列到几百个碱基左右。利用随机片段间重叠的部分进行拼接,在计算机服务器上将这一巨大的拼图完成,得到正确的基因组序列。

但是这一方法在处理一些由重复元件构成的序列时,存在着很大的难度,甚至成为了无法解决的难题。例如TTAATATTAATATTAATA或TAATA重复三次,“在面对这样一些完全一样的序列时,其实很难将他们进行组装拼接。”Lander说道,就像拼图游戏中的大片蓝天,颜色相同时就很难确定每一块拼图正确的位置。

2004年,基因组计划报道了在所得到的序列中存在341个gap,也就是我们所说的未被测到的空缺。其中250个gap在染色体中的主要区域,决定了与生命活动相关的重要蛋白的产生。这些gap的长度相对较小。然而另外还有33个gap位于每个染色体中间连接的着丝粒部分,以及染色体末端的端粒。并且这33个gap的长度非常的大,甚至相当于10倍250个gap的大小。


 
著名遗传学家Evan Eichler

因此着丝粒部分的序列成为了基因组中庞大的未知区域,就好像在非洲探险时,遇到难以跨越的非洲*大河流——赞比西河。华盛顿大学的著名遗传学专家Evan Eichler说道,每一个染色体都有这样的序列,由多个重复的单元构成,例如一个长达171个碱基的单元,还反复形成了几千个碱基的序列,使得这一区域成为了测序的难题。

在人类基因组计划早期,“很明显,当时的技术确实无法解决这些高度重复的序列。但这也不是造成这一结果的主要因素。”目前担任麻省理工和哈佛大学研究所所长的Lander在谈到这一问题时也表示,他以及其他科学家曾经希望,其他的科学家们能够寻找到解决高度重复序列问题的好办法。

然而Lander希望的却并没有发生,并且似乎也没有谁主动的来填补基因组中的这些空缺。Lander说:“我在不知不觉中已经开始怀疑这些缺失的区域对于疾病的重要性,但或许更多的是我们根本无法看清它们的真实面貌。”

随着新型测序技术的开发,科学家们开始可以逐步探寻那些空缺中的序列信息。并且一开始,他们就已经看到“这些难以进行测序的区域往往存在着非常重要的基因”,Pacific Biosciences(PacBio)的董事长兼首席执行官Michael Hunkapiller说道。

Gordon, David, et al. "Long-read sequence assembly of the gorilla genome." Science 352.6281 (2016): aae0344.

2016年《Science》发布重大研究成果—PacBio单分子实时测序技术打造高质量大猩猩基因组运用PacBio长读长测序技术对名为Susie的大猩猩进行全基因组测序。长片段数据能够更好的进行拼接与组装

PacBio技术的重大意义在于增加了测序中DNA片段的长度,使得测序和组装更为简便。Hunkapiller说道。长读长的测序方法得到的序列,就好像用大块的碎片来玩拼图,即使这些拼图碎片仍然是一些相同的蓝色天空的图案,但尺寸更大,使得每一块拼图有可能包含一些**的特征,在拼图时就更为容易确定它们的准确位置。Hunkapiller还介绍说,PacBio现在能够达到的*长读长为60000个碱基,并且平均也可以达到15000个碱基。

Lander说:“有了如此长的序列信息,你就可以顺利的把那些麻烦的未能测序的区域给解决了。”

这看上去是一件越来越有价值的事情,不仅因为未测序的区域可能实际上也包含了决定蛋白产生的基因。并且,还有证据表面,非基因的部分,特别是DNA反复重复的区域,与疾病有着很明确的关系。Hunkapiller还说道:“人与人之间明显的差异,体现在基因组在这一类变异上,有着3/4的结构不同”,而不是单碱基,例如A、T、C、G这一类已经广泛受到关注的差异。在2007年的一片文章中,Craig Venter及其团队的研究就展示了,与单碱基变化相比,这种称为结构变异的差异,在人与人之间的表现更为丰富。

Seo, Jeong-Sun, et al. "De novo assembly and phasing of a Korean human genome." Nature 538.7624 (2016): 243-7.

PacBio单分子测序技术结合Bionano单分子光学图谱技术打造完美Korean基因组

A. 通过直接比较AK1组装图和GRCh37参考基因组,检测Deletion(红色),Insertion(蓝色),Inversion(绿色),Complex Variant(灰色)。外圈饼图表示新发现的每种SV类型。总共65%(11,927)的SV是以前未见报道的。B. AK1中Insertion和Deletion的重复序列组成。Insertion和Deletion都是大部分由移动元件或串联重复序列构成。复杂变异被定义为由几种注释的重复元件构成的变异,或至少30%的剩余序列未被注释为重复序列。

然而,大约90%的结构变异,也就是绝大多数的结构变异,无论是在基因组计划中,还是在后来的千元基因组计划中,均未能够被检测到。Eichler和他的团队去年的研究中也报道过这一问题。

DNA重复序列之所以非常重要的原因之一在于,重复的DNA序列能够移动,并且复制出其副本,还能调换方向,并做出一些“高难度动作”。另一方面,着丝粒周围的重复序列,通常称之为卫星,可能导致分裂的细胞发生癌变。因为卫星的结构变化可能会破坏整个基因组的稳定性。

在前不久的报道中,一名年轻人身患罕见疾病Carney综合征,导致非癌性肿瘤在整个身体内生长。当时,来自斯坦福大学的研究人员们希望通过测序技术寻找导致这一疾病的遗传因素。但运用标准的全基因组测序时却没有发现任何结果,Hunkapiller说道:“但是,PacBio提供的‘长片段’检测技术能够发现基因组中的结构变异,使得这一问题迎刃而解。”

Merker, Jason, et al. "Long-read whole genome sequencing identifies causal structural variation in a Mendelian disease." bioRxiv (2016): 090985.

PacBio测序鉴定出的Carney综合征相关重要基因PRKAR1A中1号外显子处2184bp杂合性缺失

这些重复序列的地位非同一般!甚至,这些重复单元是使得我们成为人类的重要因素。“一些复杂的重复元件在高级神经适应性功能的进化过程中,扮演了非常重要的角色。” Eichler指出,例如,在大脑的发育的过程中,一种叫做ARHGAP11B的基因,就是由一些重复元件构成的,能够使皮质形成支持复杂思想的无数褶皱; 而SRGAP2C基因也是一个由重复单元形成的结构,能够启动大脑的发育。

“这些是在过去的几百万年里,在我们进化过程中新形成的基因。” Eichler说道,同样,重复序列还可以引起“与自闭症和智力障碍等神经发育障碍相关的DNA重排。”

“完成真正的全基因组测序!”

这还可能只是一个研究的方向,但却更应该成为一个振臂高呼的口号。

欢迎索取PacBio单分子实时测序技术的详细资料

基因有限公司作为Pacific Biosciences公司在中国区的独家代理商,自2011年以来将PacBio第三代单分子实时测序技术引入国内,一直为国内用户提供专业的三代测序系统的安装培训,技术支持,应用培训与售后维护工作,赢得客户的一致好评与信任。基因有限公司将一如既往的支持越来越多的PacBio用户。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号