长读长测序在人类基因组研究中的应用及展望

【字体: 时间:2020年07月22日 来源:

编辑推荐:

  作为一位人类遗传学研究领域的领导者,作者对比了不同的长读长测序,及相对于短读长所带来的优势。并指出在医学相关的基因组组装、基因组变异研究,以及包括转录组和碱基修饰在内的表观遗传学研究方面,长读长测序技术所带来的变革。

美国华盛顿大学医学院基因组学系Evan E. Eichler教授,近日在Nature Reviews Genetic上发表了一篇重要的综述——Long-read human genome sequencing and its applications。作为一位人类遗传学研究领域的领导者,作者对比了不同的长读长测序,及相对于短读长所带来的优势。并指出在医学相关的基因组组装、基因组变异研究,以及包括转录组和碱基修饰在内的表观遗传学研究方面,长读长测序技术所带来的变革。

首先,作者在介绍不同测序技术,以及相应的数据类型,包括传统的CLR测序,以CCS为基础生成的HiFi read,来自Nanopore的Long read和Ultra-long read。

HiFi read是PacBio于2019年正式推出,基于CCS模式,更加优化的高准确度长读长技术。相较于传统的Long-read而言,这一数据兼顾了大范围的读长以及更高的准确度,使得后续的进一步分析都有了一个更高质量数据的起点。

基于不同测序技术性能的表现,作者对PacBio,Oxford Nanopore technology,以及illumina三种不同的测序技术,不同类型的数据模式,在准确度和通量上进行了比较具体的比较。

从这一比较中,我们可以看出,作为目前主流的NGS测序技术,illumina的准确度可达99.9%,然而不同测序技术中,准确度最为接近的则是来自PacBio的HiFi read。其通过CCS环形一致性测序,通过多次读取,在分子内进行了矫正,从而获得更高准确度的单分子read。而Nanopore技术尽管具有超长的读长,但准确度则无法达到这样的水平。对此,作者还特别针对读长及准确度的问题进行了比较。

从图中不难看出,在实际的准确度上,尽管ONT具有更长的读长,但准确度却无法得到有效的提升,离Q20,即99%的准确度还有相当大的距离。虽然对于PacBio而言,CLR也面临着类似的问题,但由于采用了环形的SMRTBell文库,测序获得更多来自同一条分子的subreads之后,分子内部的矫正则能将reads的准确度提升到一个更高的水平,即HiFi read。在这样的条件下,Long reads将不再需要通过short reads来对准确度进行打磨。这不仅意味着通过单一的技术手段就能得到更多的信息,同时在数据处理方面,也降低了分析资源的消耗,大大缩短了分析所需要的时间。

对于医学相关的应用,作者列举了基因组组装、基因组变异研究,以及包括转录组和碱基修饰在内的表观遗传学研究方面的比较,以及相应的应用特点。

No.1 长读长测序用于基因组组装

对于人类基因组的深入分析,正在从序列mapping逐步过渡到个体进行组装,并进行差异比较。这样的分析方法也使得深入的进行单倍型分析。然而对于单倍型的组装,在过去的一些文献解读中我们也有提到,HiFi read对于基因组的单体型分析有着更大的贡献。除此而外,也需要考虑组装软件的效果。近期所发表的一篇文章,展示了HiCanu+HiFi对基因组单倍型检测的提升

另一方面,随着个人化实验室对基因组组装的掌握程度不断提高,组装时间也在大幅的压缩。目前基于PacBio HiFi reads,已经可以实现在100分钟(30 CPU hours)内完成contig N50>20Mb的人类基因组组装。相对于过去基于illumina 短读长测序技术,这一时间已经有了几十倍的提升。

No.2 研究基因组中的各种变异

与短读测序相比,采用PacBio技术进行结构变异分析,成本依然较高。但在Sequel II推出后,基于其进行相关变异已经可以实现数百个样本的群体规模测序,以及基于家族的测序以进行变体发现和基因组组装。例如2019年启动的The All of Us Research Program,将在知名的HudsonAlpha生物技术研究所来进行一项人类基因组超大队列研究。HudsonAlpha将使用PacBio的长读长全基因组测序技术对来自全美不同种族的超过6000个志愿者的遗传数据进行检测,以发现在人群中低至0.1%的结构变异。

另外,欧洲罕见病研究计划SOLVE-RD已选择PacBio SMRT测序技术来帮助揭示导致难以诊断的罕见疾病的遗传机制。作为这项工作的一部分,科学家将使用PacBio Sequel II系统对超过500个人类全基因组进行测序,以确定引起疾病的变异。

在后续的发展和优化过程中,PacBio的通量也将进一步的实现优化,以达到1个人类基因组采用1张芯片,在1天内完成测序的目标。

No.3 转录组和碱基修饰方面的研究

事实上,PacBio测序技术,已经采用HiFi read方式,在新转录本发现的应用上有了非常成熟的发展,并且已经形成独立的一套称之为Iso-Seq的转录本测序方案。而这一技术的另一个重要应用领域,则是碱基修饰的检测。目前基于这一应用,也已经有不少科学家发表了相关文章。

小结

最后,显然,基于HiFi read的质量在99%以上的高准确度 long read,无论是医学相关的基因组组装还是变异检测与分析,都能够在低覆盖度的条件下获得更为理想的结果。并且,还能用于更加准确的全长转录本测序,以及碱基修饰的检测。随着Sequel II的推出及不断的优化,一系列的成本也随之降低,面对绝大部分的测序应用需求而言,PacBio HiFi reads也将逐渐取代传统的CLR reads,成为有利于数据分析的高质量测序结果。

参考文献:
Logsdon, G.A., Vollger, M.R. & Eichler, E.E. Long-read human genome sequencing and its applications. Nat Rev Genet (2020).

基因有限公司作为PacBio公司在中国区的独家代理商,自2011年以来将PacBio第三代单分子实时测序技术引入国内,一直为国内用户提供专业的三代测序系统的安装培训,技术支持,应用培训与售后维护工作,赢得客户的一致好评与信任。基因有限公司将一如既往的支持越来越多的PacBio用户。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号