Nanopore检测基因组结构变异能力大揭秘

【字体：大中小】 时间：2017年12月26日 来源：

编辑推荐：

　　近期另一个长读长测序技术——Oxford Nanopore Technologies（ONT），也逐渐受到了大家的关注。今天就给大家解析一下近期在《Nature Communication》上发表的一篇文章，看看究竟Nanopore测序技术在人类基因组结构变异检测方面有如何的表现。

PacBio的单分子实时（Single Molecule Real-Time，SMRT）测序技术已经能够非常成熟的应用于人类基因组结构变异的研究中。而近期另一个长读长测序技术——Oxford Nanopore Technologies（ONT），也逐渐受到了大家的关注。今天就给大家解析一下近期在《Nature Communication》上发表的一篇文章，看看究竟Nanopore测序技术在人类基因组结构变异检测方面有如何的表现。

不想看全文的同学直接从这里开始看提炼，划重点吧！

1. 本文中采用的ONT R9.4*新试剂，大于10kb的平均读长和2.2Gb per run的产出并没有惊艳之处。

2. ONT技术的错误率具有偏好性，包含indel、单碱基错配等错误类型，且存在系统误差。在高GC含量区域、同聚物区域和串联重复区域错误率大大增加。

3. 由于同聚物和串联重复区域中缺失型错误率较高，导致ONT数据在这些地方检测到的结构变异可信度较低。在后续分析中舍弃了83%来自这些区域的结构变异数据，而这对后续的结构变异分析会带来非常大的数量限制。

4. *终得到的结构变异结果，与illumina数据相比，新检出944个结构变异，仅提升了14%。与PacBio在结构变异的检出率，灵敏度等结果相比，有很大的差距。

文章所选实验对象：两个由于染色体断裂点异常而导致患有先天性疾病的病人

测序平台及测序：Oxford Nanopore Technologies，MinION平台（7个），两个病人的样本分别采用了，R7、R9和R9.4试剂进行上机测序，测序深度为11-16X。

接下来我们看看详细的结果及分析

数据产出

在这篇文章中，作者用MinION对两个病人进行了低深度的全基因组测序，其中运用了*新的R9.4试剂的样本，单次run能够产出的数据为2.2Gb，读长>10kb。在7个MinION上运行了5天，产生了11X覆盖深度的人类基因组数据共35Gb。

ONT MinION R9.4版本试剂得到的Reads长度的分布主要集中在10-20kb

测序准确度

作者也对得到的数据进行了的错误率分析。错误率为15.1%，其中大部分为缺失型错误和碱基错配，以及少量插入型错误。

作者对测序错误进行了进一步分析，发现在同聚物区域，缺失型错误率增加了2.6倍，在串联重复区域增加了1.4倍！并且还发现缺失型错误率和错配错误率在高GC区域出现了显著的增加，呈现明显的GC bias现象。另外，通过分析也发现，缺失型错误主要发生在同聚物区域，特别是poly-A的位置。

Nanopore 测序数据中，GC bias和错误率之间的相关性。其中，从缺失型的错误率与GC 区域呈现显著的相关性，p < 10^-16。而错配型错误率也和GC区域相关。呈现了明显的GC bias。

结构变异分析

在这篇文章中，作者们开发了一种新的结构变异分析算法——NanoSv。作者用ONT对经典的参考基因组样本NA12878进行了测序，并运用NanoSV对其1号染色体进行结构变异分析，得到3957个结构变异结果。由于ONT测序错误率在同聚物区域、串联重复区域容易较高，因此作者对这3957个结构变异进行了过滤，去掉了83%处于同聚物区域、串联重复区域中结构变异，得到了657个结构变异用于做进一步分析。当然，在这一过程中，除了假阳性的结构变异被过滤掉之外，相信相当一部分真实的数据结果同样也被去掉了。

然后，作者用这一过滤得到的数据与PacBio数据进行比较，用以验证ONT数据的可靠性。同样的，通过NanoSV对PacBio数据的1号染色体进行分析，发现1643个结构变异。但为了能使两者能在相同水平进行比较，作者舍弃了处于多聚物、串联重复区域的变异结果。过滤后得到332个结构变异。其中与ONT结果相同的占到了292个（88%），这也说明了本次ONT数据分析得到的结构变异准确率为44%左右。为了进一步分析，所得结构变异的可验证率为75％。

NA12878分别用ONT以及PacBio测序得到的数据进行NanoSV分析的流程

下面作者开始运用NanoSV算法对文章中涉及到的两个样本进行了分析。分别获得了36959个，36321个结构变异。同样，经过同聚物区域、串联重复区域的过滤，新算法的调整，*终得到了3271个、3345个结构变异结果。然而，通常人类基因组中的结构变异数量大概是在20000个左右，而能够被短读长技术检测到的占4000个左右。所以从数量上看，本文中ONT检测结构变异的数量并没有显著的增加。

作者也将ONT的结果与illumina的1000人基因组计划发现的结构变异进行了比较。然而却发现ONT仅发现了14%illumina无法发现的结构变异。

PacBio技术用于结构变异检测和分析

那么，让我们再回顾2015年《Nature》上发表的一篇打造 “白金级”人类参考基因组的文章，这篇文章基于 PacBio 单分子实时测序技术，对CHM1样本进行全基因组测序，在碱基水平发现了26079个结构变异，其中超过22000个均为新发现的结构变异。并且，可验证率高达97%。

另外，针对插入和缺失的结构变异，其检测数量和灵敏度会随着PacBio测序覆盖度的增加而有所提升。同时，我们还可以注意到，在10X覆盖度时，10854 个插入变异已经可以达到83%的检测灵敏度，以及7692个缺失变异也足以达到90.5% 的检测灵敏度了。

左图：PacBio测序覆盖度与结构变异检测数量的关系
右图：PacBio测序覆盖度与结构变异检测灵敏度的关系

通过对这篇文章的简要解析，能帮助大家更好的理解长读长测序技术以及结构变异的检测与分析。如果您对原文感兴趣，可以通过以下信息进行搜索。

参考原文：

Stancu, Mircea Cretu, et al. "Mapping And Phasing Of Structural Variation In Patient Genomes Using Nanopore Sequencing." bioRxiv (2017): 129379.

Chaisson, Mark JP, et al. "Resolving the complexity of the human genome using single-molecule sequencing." Nature517.7536 (2015): 608-611.