GoldPolish-Target:靶向长读长基因组组装抛光的创新利器

【字体: 时间:2025年03月08日 来源:BMC Bioinformatics 2.9

编辑推荐:

  研究人员针对长读长测序错误率高问题,开发 GoldPolish-Target,其性能优且计算成本低。

  在基因组测序的 “神秘宇宙” 中,科学家们一直致力于解读生命的密码,而高质量的基因组组装则是开启这扇神秘大门的关键钥匙。随着长读长测序技术的兴起,就像为探索者们配备了更强大的望远镜,能够捕捉到基因组中更遥远、更复杂的信息。像牛津纳米孔技术(Oxford Nanopore Technologies,ONT)和太平洋生物科学公司(Pacific Biosciences,PacBio)的仪器,它们产生的长读长序列能够跨越基因组中的大片区域,帮助解析复杂的结构变异和高同源性区域。
然而,长读长测序并非完美无缺,它的高错误率就像望远镜上的污渍,影响着观测的清晰度。与 Illumina 的短读长测序相比,ONT 和 PacBio 的错误率相对较高(1 - 15%),而 Illumina 短读长测序错误率仅约为 0.1 - 1%。这些错误会像隐藏在代码中的 “小怪兽”,干扰后续基因组组装的碱基质量,阻碍准确的下游分析,比如影响真正变异的识别和比较基因组研究。

为了 “打败” 这些 “小怪兽”,许多错误校正工具应运而生,如 Racon、Medaka 和 GoldPolish 等。但即便如此,许多基因组组装流程仍存在高错误率区域,比如碎片化重叠群的末端区域,以及像 GoldRush 基因组组装流程中 ntLink 在填补间隙时留下的未抛光碱基区域。这些区域就像基因组中的 “暗区”,充满不确定性,严重影响下游分析的可靠性。

为了照亮这些 “暗区”,加拿大的 Michael Smith 基因组科学中心的研究人员 Emily Zhang、Lauren Coombe 等人开展了一项重要研究,开发出了 GoldPolish-Target(GP-Target),这是一种基于 GoldPolish 的长读长靶向抛光流程。该研究成果发表在《BMC Bioinformatics》杂志上。

研究人员在研究中运用了多种关键技术方法。首先,使用 SnakeMake 搭建 GP-Target 工作流程,它包括长读长序列映射、目标序列提取、PAF 映射文件更新、GoldPolish 纠错以及抛光后目标序列回插等步骤。在实验数据方面,选用了果蝇(Drosophila melanogaster)和人类(Homo sapiens)的数据集,这些数据来自序列读取档案(SRA)。为了评估抛光效果,研究人员使用了 QUAST、Merqury 和 BUSCO 等工具进行多维度的质量评估。

下面来看看具体的研究结果:

  1. 评估碱基错误(QUAST):研究人员使用 QUAST 比较了 GP-Target 和 Medaka 在纠正果蝇和人类基因组组装草案中插入、缺失(indel)和错配错误的性能。结果显示,在果蝇基因组组装中,尽管 GP-Target 靶向区域仅占总序列长度的 15.4%,但它能显著提高碱基准确性,ntLink 和 minimap2 映射下分别减少 49.2% 和 45.2% 的 indel 错误,以及 55.4% 和 42.1% 的错配错误;在人类基因组组装中,仅 7.2% 的区域进行 ONT 长读长抛光,GP-Target(ntLink)减少 22.8% 的 indel 错误,GP-Target(minimap2)减少 22.9% 的 indel 错误,两者均减少 20.0% 的错配错误。这表明 GP-Target 在纠正错误方面表现出色,与 Medaka 性能相当。
  2. 评估一致性质量(Merqury):研究人员利用 Merqury 评估了每个数据集靶向抛光前后的一致性质量得分(QV)。在果蝇基因组组装中,GP-Target(ntLink)和 GP-Target(minimap2)分别使 QV 增加 8.3% 和 7.4%,Medaka 增加 8.3%;在人类基因组组装中,GP-Target(ntLink)和 GP-Target(minimap2)分别使 QV 增加 6.9% 和 7.0%,Medaka 增加 7.5%。所有抛光后的基因组组装 QV 得分都超过 99.9% 的碱基准确性,表明 GP-Target 能有效提升组装的一致性质量。
  3. 评估基因完整性(BUSCO):研究人员借助 BUSCO 工具评估基因组组装在基因空间的完整性。在果蝇基因组组装中,GP-Target 抛光后恢复了 6 个完整的 BUSCOs(占所有调查 BUSCO 组的 0.19%),Medaka 恢复了 8 个(占 0.25%);在人类数据集里,GP-Target(ntLink)和 GP-Target(minimap2)分别恢复了 116 个和 106 个完整的 BUSCOs(均占 0.8%),Medaka 恢复了 132 个(占 1%)。尽管 GP-Target 仅靶向部分基因组,但它对错误的纠正有助于恢复更多完整的 BUSCOs,使基因组组装更完整。
  4. 计算资源使用:研究人员对比了 GP-Target 和 Medaka 的计算资源使用情况。结果发现,无论使用哪种映射算法(ntLink 或 minimap2),GP-Target 在总运行时间和峰值随机存取内存(RAM)使用上都更高效。在抛光果蝇基因组时,GP-Target(minimap2)平均运行时间为 8.2 分钟,峰值 RAM 为 3.0GB,而 Medaka 平均需 3.0 小时,RAM 为 33.8GB;在抛光人类基因组时,GP-Target(ntLink)平均抛光时间为 1.7 小时,峰值 RAM 为 2.6GB,Medaka 则需 45.8 小时,RAM 为 38.0GB。这充分体现了 GP-Target 在计算资源利用上的优势。
  5. 与全局抛光算法比较:研究人员将 GP-Target 与全局抛光算法进行比较。结果表明,Medaka 在非靶向模式下虽能大幅减少错误,但计算资源消耗巨大;GoldPolish 作为全局抛光工具,在某些情况下甚至会增加错配错误。而 GP-Target 通过靶向特定区域,简化了 Bloom 滤波器引导的抛光步骤,提高了抛光质量,且运行时间更短,峰值 RAM 使用更低,还能让用户灵活选择感兴趣的区域进行抛光。

综上所述,GP-Target 是一种强大、高效且灵活的靶向长读长抛光流程。它在提高基因组组装碱基质量方面与 Medaka 相当,但计算效率更高,运行时间更短,内存占用更小。此外,它还支持多种映射方式,具有很强的适应性,未来有望与更多工具集成。这一研究成果为基因组学研究提供了更有力的工具,将推动长读长基因组组装技术的进一步发展,助力科学家们更准确地解读生命密码,在基因组学领域具有重要的意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号