有一个地方,测序始终难以覆盖[创新技巧]

【字体: 时间:2015年02月16日 来源:生物通

编辑推荐:

  也许你并不知道,人类基因组并没有测序完全。一些重复区域和难测序的序列始终犹抱琵琶半遮面。同时,遗传变异也是个挑战。在新一期的《BioTechniques》杂志中,Nathan Blow介绍了一些新的技术和方法,能帮助人们绘制这些难以读取的DNA片段。

也许你并不知道,人类基因组并没有测序完全。一些重复区域和难测序的序列始终犹抱琵琶半遮面。同时,遗传变异也是个挑战。在新一期的《BioTechniques》杂志中,Nathan Blow介绍了一些新的技术和方法,能帮助人们绘制这些难以读取的DNA片段。

对于生活中的许多事情,我们往往会想当然。在实验中也是如此。以DNA测序为例,人们总觉得新一代测序(NGS)平台已强大如斯,理应能解码任何部分的DNA。然而,真实的情况是,即使是最先进的测序平台,再加上最新的生物信息学软件,有时也会束手无策。

众所周知,基因组主要包括以各种方式排列的GATC核苷酸长链。当这些核苷酸以“正常”方式排列(如基因的编码序列)时,一切都很好,测序并不困难。当这些排列越来越多样化,当核苷酸开始大片段重复,当单个核苷酸绵绵延伸(这种情况被称为均聚物)时,挑战出现了。这时,测序带来的基因组上有许多洞。

Deanna Church现任Personalis公司基因组学与内容的高级总监,早前参与了finish人类基因组的工作。她表示:“我认为这个世界上没有一个已完成的人类基因组。至少我一个也没看见。”

在人类基因组草图公布之后,Church就与一些测序和基因组组装的专家一起专攻基因组中那些无法测序的区域。她们的努力带来了DNA测序的新方法和新工具,以及独特的生物学见解。然而,另一个问题也开始显露。finished参考基因组究竟是什么样子?如何捕获单个参考序列中的大量遗传变异?

技术限制

如今的DNA测序平台比以往任何时候都更高产。但有利也有弊,这些平台产生的序列读取比过去的系统要短得多。当科学家试图将数百万条短序列组装成复杂的基因组时,问题真的来了。试想一下,一块拼图由几千小块组成,且每块的形状和颜色都几乎相同。片段越多,拼拼图的挑战性就越大。这也是当今研究人员在组装基因组时所面临的挑战。

解决“小片段”问题的一种方式是生成一个框架,将所有的小片段放在里面。通过这种方式,您就有了一个指定的起点,来拼剩下的拼图。对于基因组测序而言,新的长读取测序系统的出现,兴许会让一切变得不同。

Pacific Biosciences公司的单分子测序系统能带来非常长的DNA片段。利用最新的试剂,它的平均读取长度已达到10,000 bp或更长,显然比其他平台的几百个碱基要长得多。尽管准确性和通量水平仍不及Illumina,但PacBio的数据常常被用作“脚手架”,以指导短读取数据的组装。这样的组合在最近几年频频出现。

2012年,美国一组研究人员在《Nature BioTechnology》上发表文章,利用高保真的短读取序列和几kb的单分子测序读取来校正错误,并实现de novo基因组组装。他们利用这种方法验证了多个基因组,包括之前难以测序的鹦鹉基因组,证实碱基检出准确性达到99.9%。2013年,由PacBio的Jonas Korlach领导的另一个团队仅利用SMRT测序数据,组装成finished细菌基因组。这项成果发表在《Nature Methods》上。

了解PacBio测序仪的更多信息

棘手的着丝粒

对于人类基因组测序而言,一个特别棘手的区域就是着丝粒。它由长的重复DNA序列组成,这些重复序列相似,但不相同。Church回忆道:“在原先的人类基因组组装中,着丝粒以300万个N出现。”在2003年完成人类基因组草图后,基因组参考联盟(Church是会员)就开始解码这些困难的区域。

直到2014年,着丝粒的测序工作才有了很大进展。Karen Miga及其同事首次解码了长达380万个核苷酸的着丝粒DNA片段,并将结果发表在《Genome Research》上。通过这个,她们能够构建出基因组中重复片段及其顺序的模型(这里的模型指的是参考序列)。这个着丝粒序列模型有助于研究人员探索着丝粒的结构与功能,不过需要注意的是,这些序列并不与Venter基因组中的着丝粒序列完全匹配。

参考基因组的新面貌

所有基因组测序的工作都有一个目的,那就是产生完整的人类参考基因组,供研究人员研究人类遗传学和生物学使用。但是,这又带来了另一个问题 – 我们应该看谁的参考基因组?人群中存在相当量的遗传变异(SNP和结构变异),是否应该将序列变异融合到参考基因组中?这是否可行?一些科学家认为,我们应重新考虑参考基因组的概念。

人体中的每条染色体不止一个拷贝,那么如果测序时发现同一等位基因上有两个突变,你该如何表示?为了解决这个问题,研究人员开始采用分相测序(phased sequencing),以便更准确地表示复杂基因组。

在分相测序中,研究人员通过技术来实现每对染色体的分离和测序,以捕获每条同源染色体上的变异信息。这些数据也能让研究人员分清母系和父系遗传的等位基因,这在追踪遗传病的起因时也是一个重要的考虑因素。目前的测序技术和生物信息学工具能实现短距离分相,而真正问题是长距离的分相。

一种解决长距离定相测序的方法是开发出方法和技术,对染色体的单拷贝进行分类,然后标记或分开测序。2011年,斯坦福大学的Wing Hung Wong及其同事利用流式细胞仪和染色体扩增来分类染色体,然后利用荧光标记来标记特定染色体的DNA,实现分相分析。同年,Wong在斯坦福的同事Stephen Quake依靠微流体方法将染色体分类,随后开展基因分型和序列分析,从单细胞中获得分相的基因组数据。

随着分相测序工作不断改进,随着国际联盟(如千人基因组计划)获得更多的遗传变异数据,如何通过单个“参考”基因组来代表所有的新序列和遗传变异数据,就成了一个大问题。Church更倾向于使用“模型”这个词,因为她相信,未来我们表示参考基因组的方式将与现在完全不同。

以图形来表示基因组的想法如今得到了越来越多人的支持,包括全球基因组学与健康联盟(Global Alliance for Genomics and Health)。这个联盟覆盖200多个机构,正在研究如何安全地共享和呈现基因组和临床信息。

文章的作者认为,如今研究人员测序DNA的速度和深度让生命科学研究迎来了独一无二的时刻,但研究界必须退后一步,以便了解如何更好地与世界共享这些信息。困难区域的测序,以及找到更好的方式来表示基因组图谱上的数据,将带来基因组学的新面貌。(生物通 薄荷)

原文检索

DECODING THE UNSEQUENCEABLE
Nathan Blow, Ph.D.
BioTechniques, Vol. 58, No. 2, February 2015, pp. 52–58

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号