让长读取来拯救基因组组装[创新技巧]

【字体: 时间:2013年04月08日 来源:生物通

编辑推荐:

  新一代测序的出现,让科学家们能够更快地实现基因组测序,且成本比Sanger测序要低得多。但是,这是以牺牲读长为代价的,平均读长从Sanger测序时的800-900 bp降低至如今的100 bp左右。短的读长让基因组组装更加困难,因为需要更深度覆盖才能产生相当的组装。为了解决这一问题,Worley及其同事最近转向了Pacific Biosciences公司的PacBio RS平台。

新一代测序的出现,让科学家们能够更快地实现基因组测序,且成本比Sanger测序要低得多。但是,这是以牺牲读长为代价的,平均读长从Sanger测序时的800-900 bp降低至如今的100 bp左右。短的读长让基因组组装更加困难,因为需要更深度覆盖(也就是更多的重叠序列读取)才能产生相当的组装。

然而,有些问题是更深度覆盖也无法弥补的。对于de novo组装,长度超过读长的重复序列会产生缺口,导致近年来更多片段化的组装。因此,我们很难检测重复区域的变异,而这些对了解某些疾病可能很重要。

对此,贝勒医学院人类基因组测序中心的遗传学家Kim Worley谈道:“最令人沮丧的事情是100 bp读取中没有太多的信息内容。”她指出,在恒河猴的基因组草图中,高达20%的基因模型都含有缺口。

Worley表示:“我们已经完成了人类基因组和小鼠基因组,而其他一切都仍未完成。即使是已经完成的基因组,也有并不完全连续和正确的区域,而用户对那些区域的数据总是不满意。”

为了解决这一问题,Worley及其同事最近转向了Pacific Biosciences公司的PacBio RS平台。这是一种第三代测序技术,能够实时开展单分子测序反应。该系统的平均读长在几kb,而某些情况下的最大读长能达到30 kb。

这些长的序列读取简化了基因组组装,因为它们能够跨越重复区域,而且不需要DNA的扩增,从而减少了某些测序假象和基因组覆盖偏向。因此,PacBio RS平台产生的长读取无GC偏向或系统误差,适用于基因组组装的升级。

正如去年在《PLoS ONE》上介绍的,Worley及其同事开发出一种自动的软件工具,名为PBJelly。1 它能够将PacBio长读取与组装草图比对,关闭或改善缺口,同时保留注释。研究人员将这种方法应用在四个基因组上,解决了63%-99%的缺口,能关闭32%-69%并改善12%-63%。

PacBio的首席科学官Jonas Korlach表示:“我们正在经历一场复兴,一场已完成基因组的复兴。在Sanger测序的年代,这是惯例,但是当新一代技术到来时,它几乎被抛弃,因为几乎不可能通过Sanger测序来结束那些基因组。”

从原理上说,PBJelly适用于任何平台所产生的长序列读取。不久之后,当新一代测序公司赶上PacBio的读长时,这一特征就显得尤为重要。

正在朝这一方向努力的是Illumina公司。不久前,它收购了Moleculo公司,该公司开发的技术让大的DNA片段可在Illumina标准测序系统上进行测序,随后组装成合成的长读取。来自每个分子的短序列读取分别组装,最终结果是所有片段的完整序列。从本质上讲,短读取数据重建成长读取。

在1月份召开的国际动植物基因组大会上,一组科学家报告称,Moleculo技术可利用Illumina HiSeq2000平台,产生长度跨越1.5-15 kb的准确DNA测序读取。

另一个长读取技术的范例是454的GS FLX+系统,它带来了长度达1000 bp的读取。眼下,一个研究协作组正在利用这种测序技术来分析和组装RP11人类参考基因组,试图关闭缺口并发现基因组序列中的新基因。

454生命科学研发部门的副总裁Todd Arnold表示:“454一直以高质量、长读取而著称。”随着读长和通量逐步上升,“我们在增加读长时也力争保留我们的质量值,因为这对我们的客户非常重要。”

但根据Korlach的说法,现有的其他技术都无法与PacBio抗衡。他表示,目前存在根本的技术差异和限制,使得其他技术无法提供PacBio的连续读长。

不过,PacBio长读取技术也有缺点,那就是错误率高。尽管通过环化测序可实现高度准确的测序结果,但PacBio RS仪器产生的单向读取,平均准确性只有87-89%。该公司负责产品管理的高级总监Edwin Hauw表示:“我们正在努力改善这一点,但准确性仍将在很长一段时间内低于其他现有技术,因为我们的技术是基于单分子的实时检测。”

东京大学的计算生物学家Michiaki Hamada对那些错误率不以为然。“在我看来,这些高错误率不会带来严重的问题,因为大部分错误可通过低错误率的短读取来校正,比如Illumina测序仪所产生的那些。”

在最近的一项研究中,Hamada及他的团队开发出一种名为PBSIM的读取模拟器,它捕获了PacBio读取的主要特征。Hamada表示,他们的长期目标是开发出适用于长读取的de novo组装程序,但目前还没有模拟器能针对PacBio文库的生成。

Hamada及其同事利用PBSIM来分析13个PacBio数据集,结果发表在《Bioinformatics》上。2 在开展PacBio读取的混合纠错和组装检测之后,他们发现,通过覆盖深度至少为15的连续长读取,再加上覆盖深度至少为30的循环测序,可获得大量的组装结果。Hamada表示:“PBSIM不仅可用于组装程序的评估,可能用于测序的实验设计。”

由于参考基因组中的缺口可能包含了与疾病相关的基因,故长读取技术的利用对临床领域有重大影响。例如,Arnold及其同事鉴定出一个可能参与癌症发展的区域。“有证据表明该基因来自早期的RNA序列数据,但它并未出现在参考基因组中,因此开展重测序研究的人员看不到。参考文库越完整,你以积极方式使用这些数据的能力就越强。”

(文:Janelle Weaver博士/生物通编译)

欢迎索取PacBio RS平台的更多资料

参考文献

1. English, A.C., S. Richards, Y. Han, M. Wang, V. Vee, J. Qu, X. Qin, D.M. Muzny, J.G. Reid, K.C. Worley, and R.A. Gibbs. 2012. Mind the gap: upgrading genomes with Pacific Biosciences RS long-read sequencing technology. PLoS One 7(11):e47768. doi: 10.1371/journal.pone.0047768.
2. Ono, Y., K. Asai, and M. Hamada. 2013. PBSIM: PacBio reads simulator--toward accurate genome assembly. Bioinformatics 29(1):119-21. doi: 10.1093/bioinformatics/bts649.

 

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号