Nanopore检测基因组结构变异能力大揭秘

【字体: 时间:2017年12月26日 来源:

编辑推荐:

  近期另一个长读长测序技术——Oxford Nanopore Technologies(ONT),也逐渐受到了大家的关注。今天就给大家解析一下近期在《Nature Communication》上发表的一篇文章,看看究竟Nanopore测序技术在人类基因组结构变异检测方面有如何的表现。

PacBio的单分子实时(Single Molecule Real-Time,SMRT)测序技术已经能够非常成熟的应用于人类基因组结构变异的研究中。而近期另一个长读长测序技术——Oxford Nanopore Technologies(ONT),也逐渐受到了大家的关注。今天就给大家解析一下近期在《Nature Communication》上发表的一篇文章,看看究竟Nanopore测序技术在人类基因组结构变异检测方面有如何的表现。

不想看全文的同学直接从这里开始看提炼,划重点吧!

1. 本文中采用的ONT R9.4*新试剂,大于10kb的平均读长和2.2Gb per run的产出并没有惊艳之处

2. ONT技术的错误率具有偏好性,包含indel、单碱基错配等错误类型,且存在系统误差。在高GC含量区域、同聚物区域和串联重复区域错误率大大增加。

3. 由于同聚物和串联重复区域中缺失型错误率较高,导致ONT数据在这些地方检测到的结构变异可信度较低。在后续分析中舍弃了83%来自这些区域的结构变异数据,而这对后续的结构变异分析会带来非常大的数量限制。

4. *终得到的结构变异结果,与illumina数据相比,新检出944个结构变异,仅提升了14%。与PacBio在结构变异的检出率,灵敏度等结果相比,有很大的差距。

文章所选实验对象:两个由于染色体断裂点异常而导致患有先天性疾病的病人

测序平台及测序:Oxford Nanopore Technologies,MinION平台(7个),两个病人的样本分别采用了,R7、R9和R9.4试剂进行上机测序,测序深度为11-16X。

接下来我们看看详细的结果及分析

数据产出

       在这篇文章中,作者用MinION对两个病人进行了低深度的全基因组测序,其中运用了*新的R9.4试剂的样本,单次run能够产出的数据为2.2Gb,读长>10kb。在7个MinION上运行了5天,产生了11X覆盖深度的人类基因组数据共35Gb。

ONT MinION R9.4版本试剂得到的Reads长度的分布主要集中在10-20kb

测序准确度

       作者也对得到的数据进行了的错误率分析。错误率为15.1%,其中大部分为缺失型错误和碱基错配,以及少量插入型错误。

       作者对测序错误进行了进一步分析,发现在同聚物区域,缺失型错误率增加了2.6倍, 在串联重复区域增加了1.4倍!并且还发现缺失型错误率和错配错误率在高GC区域出现了显著的增加,呈现明显的GC bias现象。另外,通过分析也发现,缺失型错误主要发生在同聚物区域,特别是poly-A的位置。

Nanopore 测序数据中,GC bias和错误率之间的相关性。其中,从缺失型的错误率与GC 区域呈现显著的相关性,p < 10^-16。而错配型错误率也和GC区域相关。呈现了明显的GC bias。

结构变异分析

       在这篇文章中,作者们开发了一种新的结构变异分析算法——NanoSv。作者用ONT对经典的参考基因组样本NA12878进行了测序,并运用NanoSV对其1号染色体进行结构变异分析,得到3957个结构变异结果。由于ONT测序错误率在同聚物区域、串联重复区域容易较高,因此作者对这3957个结构变异进行了过滤,去掉了83%处于同聚物区域、串联重复区域中结构变异,得到了657个结构变异用于做进一步分析。当然,在这一过程中,除了假阳性的结构变异被过滤掉之外,相信相当一部分真实的数据结果同样也被去掉了。

       然后,作者用这一过滤得到的数据与PacBio数据进行比较,用以验证ONT数据的可靠性。同样的,通过NanoSV对PacBio数据的1号染色体进行分析,发现1643个结构变异。但为了能使两者能在相同水平进行比较,作者舍弃了处于多聚物、串联重复区域的变异结果。过滤后得到332个结构变异。其中与ONT结果相同的占到了292个(88%),这也说明了本次ONT数据分析得到的结构变异准确率为44%左右。为了进一步分析,所得结构变异的可验证率为75%。

NA12878分别用ONT以及PacBio测序得到的数据进行NanoSV分析的流程

       下面作者开始运用NanoSV算法对文章中涉及到的两个样本进行了分析。分别获得了36959个,36321个结构变异。同样,经过同聚物区域、串联重复区域的过滤,新算法的调整,*终得到了3271个、3345个结构变异结果。然而,通常人类基因组中的结构变异数量大概是在20000个左右,而能够被短读长技术检测到的占4000个左右。所以从数量上看,本文中ONT检测结构变异的数量并没有显著的增加。

       作者也将ONT的结果与illumina的1000人基因组计划发现的结构变异进行了比较。然而却发现ONT仅发现了14%illumina无法发现的结构变异。

PacBio技术用于结构变异检测和分析

       那么,让我们再回顾2015年《Nature》上发表的一篇打造 “白金级”人类参考基因组的文章,这篇文章基于 PacBio 单分子实时测序技术,对CHM1样本进行全基因组测序,在碱基水平发现了26079个结构变异,其中超过22000个均为新发现的结构变异。并且,可验证率高达97%。

       另外,针对插入和缺失的结构变异,其检测数量和灵敏度会随着PacBio测序覆盖度的增加而有所提升。同时,我们还可以注意到,在10X覆盖度时,10854 个插入变异已经可以达到83%的检测灵敏度,以及7692个缺失变异也足以达到90.5% 的检测灵敏度了。

左图:PacBio测序覆盖度与结构变异检测数量的关系
右图:PacBio测序覆盖度与结构变异检测灵敏度的关系

       通过对这篇文章的简要解析,能帮助大家更好的理解长读长测序技术以及结构变异的检测与分析。如果您对原文感兴趣,可以通过以下信息进行搜索。

参考原文:

Stancu, Mircea Cretu, et al. "Mapping And Phasing Of Structural Variation In Patient Genomes Using Nanopore Sequencing." bioRxiv (2017): 129379.

Chaisson, Mark JP, et al. "Resolving the complexity of the human genome using single-molecule sequencing." Nature517.7536 (2015): 608-611.

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号