基于NGS预校正ONT读长的组装策略实现HiFi级别质量并降低成本

【字体: 时间:2025年09月12日 来源:Genome 1.7

编辑推荐:

  本研究系统评估了牛津纳米孔技术(ONT)读长经下一代测序(NGS)校正后用于基因组组装的性能,证明其可达到与高保真(HiFi)测序相当的组装质量。研究比较了Verkko、Hifiasm等混合组装工具与Shasta、Flye等ONT组装工具在低覆盖率(10–50×)下的表现,发现校正后的ONT组装在连续性和错误率方面具有优势,且成本显著降低。同时研究对比了MGI、Illumina和stLFR等NGS技术在杂合子分型、读长校正和抛光等环节的性能,为低成本高质量基因组组装提供了实践方案。

  

基因组组装是从片段化测序数据重建完整基因组序列的关键步骤。近年来,第三代测序技术如牛津纳米孔技术(Oxford Nanopore Technologies, ONT)和高保真(HiFi)测序的出现显著提升了组装质量。然而,混合组装方法通常需要同时使用大量HiFi和超长ONT读长,成本较高。为此,本研究探索了一种低成本替代方案:使用低覆盖度的ONT读长,并通过下一代测序(next-generation sequencing, NGS)进行预校正,再输入至ONT专用组装工具中。

材料与方法

研究使用了来自Ashkenazim Trio(HG002、HG003、HG004)的公开细胞系DNA样本。测序数据包括HiFi、ONT R9、ONT R9 UL(读长>100 kb)、MGI和Illumina短读长数据。所有读长均与CHM13-v1.1参考基因组比对,并使用工具进行排序、索引和降采样至10×、20×、30×和50×覆盖度。

组装工具包括基于HiFi的混合组装工具(Verkko、Hifiasm、LJA)和基于ONT的组装工具(Shasta、Flye)。ONT读长使用Ratatosk工具进行NGS校正,校正后输入至Shasta或Flye进行组装。组装结果使用QUAST评估NG50和contig数量,使用Merqury评估QV值和k-mer完整性,并使用PEPPER和Pilon进行抛光。

研究还比较了MGI、Illumina和stLFR(single-tube long fragment read)技术在分型、校正和抛光中的表现。分型错误通过Switch Error和Hamming Error评估,校正后读长精度通过比对参考基因组计算。

ONT组装工具与混合组装工具的比较

研究首先比较了不同组装工具在组装人类1–22号染色体时的性能。结果显示,HiFi-based工具(如Hifiasm)在NG50和QV值上表现最佳,但存在更多的错误组装和碱基错配。相比之下,经NGS校正的ONT读长输入至Shasta或Flye后,组装错误率显著降低,特别是在misassembly和mismatch方面表现更优。

值得注意的是,Flye+Ratatosk组合在低覆盖度(10×)下仍能保持高连续性(NG40 Mb以上)和高完整性(>95%),而HiFi工具在低覆盖度下性能下降明显。此外,即使用于组装端粒到端粒(telomere-to-telomere, T2T)的超长读长,所有工具均未能实现真正的T2T组装,尤其在着丝粒区域存在大量错误连接。

低覆盖度下的组装性能

研究进一步评估了组装工具在10×、20×、30×和50×覆盖度下的表现。发现校正后的ONT组装方法(尤其是Ratatosk+Flye)在低覆盖度下更具稳定性。在10×覆盖度下,Flye组装的NG50和indel错误率均优于其他工具,表明其更适合低深度测序项目。

MGI、Illumina和stLFR在组装中的应用比较

研究系统比较了三种NGS技术(MGI、Illumina、stLFR)在四个方面的性能:

作为Trio数据用于单倍型分型:

Hifiasm使用MGI或Illumina Trio数据时,分型错误率相近,且stLFR(无需亲本数据)也能达到相似效果。

用于ONT读长校正:

Ratatosk使用MGI或Illumina校正ONT读长后,读长精度中位数均达到98.5%左右,两者无显著差异。

用于组装后抛光:

使用PEPPER(ONT抛光)+ Pilon(NGS抛光)后,MGI和Illumina抛光后的QV值相近。

作为Merqury的k-mer数据库:

使用不同技术构建的k-mer数据库对同一组装评估QV时,结果存在较大偏差。HiFi数据库会高估QV,而MGI和Illumina结果接近。

讨论与结论

研究表明,使用NGS校正的ONT读长进行组装可在降低成本的同时达到与HiFi混合方法相当的质量。尽管HiFi工具在连续性和QV值上略有优势,但其错误组装率较高,尤其在着丝粒区域。因此,若不追求T2T组装,推荐使用常规R9或R10 ONT读长结合NGS校正的策略。

低覆盖度下的性能优势使该方案更具成本效益。此外,MGI与Illumina在各项应用中表现相近,而stLFR可作为Trio数据的有效替代,进一步降低成本。

研究还开发并公开了Snakemake流程(https://github.com/MGI-EU/assembly_workflow),集成最佳实践方法,支持基因组组装与评估的全流程分析。

综上所述,基于NGS校正的ONT组装策略为高质量基因组研究提供了经济、可靠且易于推广的解决方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号