从HiFi read 看 SMRT测序技术的准确性

【字体：大中小】 时间：2020年05月29日 来源：

编辑推荐：

　　对于运用测序技术解决科学问题的研究人员而言，测序结果的准确性至关重要。然而如何确定测序结果的准确性，则是一个难题，更别说在各个测序平台之间进行对比和取舍。作为以长读长测序技术为显著特点的第三代单分子测序技术，其准确性又如何呢？

对于运用测序技术解决科学问题的研究人员而言，测序结果的准确性至关重要。然而如何确定测序结果的准确性，则是一个难题，更别说在各个测序平台之间进行对比和取舍。准确性在不同技术间不仅有差异，在基因组的不同区域，特别是本身就难以读取的区域，更是存在着巨大的差异。作为以长读长测序技术为显著特点的第三代单分子测序技术，其准确性又如何呢？

究竟是哪一种测序的准确性？

读取精度 & 一致性准确性

DNA测序技术中，通常有两种准确性：读取精度和一致性准确性。读取精度是DNA测序技术进行单个碱基读取时固有的错误率。以目前主要的测序技术来看，传统的长读长测序的读取精度大约在90%以上，而短读长测序，以及我们着重介绍的HiFi read，它们的测序精度则在99%（Q20）以上。

而一致性准确率，则是通过对来自一组数据中多条reads的合并后的reads来进行评判。以SMRT测序技术为例，通过不同reads的合并，能够有效的消灭随机错误。增加测序深度（Coverage），也就意味着更多的reads参与了合并，用于生成更为准确的一致性序列。然而来自不同reads之间生成一致性序列的方式依然有一定的局限性。例如一致性序列生成依赖于复杂而繁琐的算法，往往消耗大量的时间用于运算。并且对于那些本身就存在系统性误差的测序技术而言，合并则会累积错误，这样的错误即使通过增加Coverage，也十分难以消除。

图1：HiFi reads提供了检测单核苷酸变异体所需的准确性，同时提高了可映射性并允许在没有系统偏好性的情况下进行定相。

举个例子，过去我们常常用高精度的NGS短reads来对其他平台获得的长reads进行打磨（Polish），特别是针对具有系统性误差的超长reads，用NGS reads来进行polish都是非常常见的操作。但由于读长悬殊，GC/AT偏好性的影响，不是所有的短reads都能**比对到长reads上，这本身就限制了打磨精度的有效性。具有系统误差的超长reads合并同样也具有系统误差的NGS短reads，polish的效果将大打折扣，而NGS无法覆盖的区域则也无法完成polish过程。

图2：NGS reads对ONT的超长reads进行polish，质量提升效果并不理想

Wenger, Aaron M., et al. "Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome.." Nature Biotechnology 37.10 (2019): 1155-1162.

因此，真正获得一致性序列，还是应该从无系统误差的高准确度读取开始，这一起点也将大大简化一致性序列的运算过程。例如PacBio SMRT测序技术独有的HiFi read，通过环形测序生成的一系列subreads来进行自我打磨，从而获得测序精度在99%以上的高质量长读长HiFi reads。不仅提供了更为准确的序列信息，在后续的运算方面，分析的流程更为简单，消耗的时间也大大减少。

图3：HiFi reads是如何生成的

测序精度如何影响测序数据？

1. 影响了覆盖度的均一性——Coverage Uniformity

我们都知道，对于一些测序平台来说，基因组中的某些区域往往就是一个无法读取的“黑洞”。例如具有大量重复序列的端粒区域，富含AT或者GC的区域都在测序技术上受到很大的限制。再例如具有回文序列和发夹结构，在测序流程中面临着变性等挑战性的技术难点。

点击了解：长读长测序的“灾难性错误”，何以准确地检测基因组结构变异？

与以往所不同的是，PacBio测序技术采用了无扩增、无变性的方式来避免上述提到的所有问题。面对过去难以读取的区域，能够毫无偏差的产生准确的结果。即使是在其他平台相当棘手的基因组区域中，也能有很好的表现。

图4：来自SMRT测序技术的HiFi read呈现出无偏好性的均一覆盖度

2. 影响reads的可映射性——Mappability

基因组组装的准确率大于每个碱基读取的精度。如果reads在组装中没有完成正确的排序，或是确定方向，那即使是完美的reads也有可能导致准确度不良。因此组装过程中reads放在何处则成为可映射性。

仅包含一个大结构元件片段的reads，或包含高度重复的序列的reads，往往难以完成比对，无法映射到参考基因组中的不同位置。这就是NGS短读长reads的症结所在，由于读长短，无法包含足够独特的序列以锚定其准确的位置。然而，同样是高准确度的HiFi reads则具有几十kb的长读长，足以跨越独特的序列结构，可以在组装中完成更好的映射。

图5：HiFi reads具有更大的范围，准确的跨越重复区域，从而提高了可映射性。

3. 影响定相——Phasing

当我们的研究对象为二倍体或者多倍体时，定相（Phasing）就意味着每条染色体都有着不同的副本，我们称之为单倍型（Haplotype）。在准确度足够的情况下，测序结果即可支持单碱基变异（SNV）的分析，其中杂合基因座表明了同源染色体对之间的序列差异。这就是传统的低精度长读长测序的技术瓶颈，读取所得的差异无法与参考数据相比对，判断差异是来自于变异，还是本身就是读取时产生的错误。

图6：定相涉及分离每个染色体的父/母遗传副本

点击了解：SMRT 测序助力发现PIK3CA基因中的顺式双突变增加肿瘤对PI3Ka激酶抑制剂的敏感性

尽管获取phasing信息也能够通过对父本母本测序来完成，但如果我们研究的对象是来自野外的物种，那采用高精度的长读长测序技术——HiFi测序则容易得多。总的来说，定相和变异的检测对数据质量提出了更高的要求，我们需要更完整的等位基因信息，这对疾病研究、作物改良，进化分析等都非常的重要。在诸多的测序技术中，PacBio SMRT测序技术独有的HiFi read能够以足够高的测序精度，在读长几十kb的范围内，向研究人员呈现基因组中的包括SNV在内的几乎所有变异的信息，进而锁定更长范围的单倍型。目前，这一方法所达到的结果，为其他测序方法无法企及。相信随着基因组学研究的迅速发展，序列的准确性将变得更为重要。而HiFi read这一兼顾了高准确度与长读长的测序方法，能够以更为简化的数据形式，为研究人员带来更多更为准确且有价值的信息。

订阅生物通快讯

订阅快讯：

免费订阅退订

限时促销

会展信息

联系信箱：

粤ICP备09063491号

订阅生物通快讯

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯