Fastq-dupaway:面向大规模NGS数据的高效去重复工具,实现低内存消耗与快速处理

《Scientific Reports》:Fastq-dupaway: a fast and memory-efficient tool for deduplication of single- and paired-end NGS data

【字体: 时间:2025年11月26日 来源:Scientific Reports 3.9

编辑推荐:

  本文推荐一款名为Fastq-dupaway的新型去重复工具,其针对二代测序(NGS)数据中PCR重复序列去除的算力瓶颈,提出基于外排序与序列比对的两种核心模式,在保证去重准确性的同时将内存占用控制在2–10 GB,且支持单端与双端数据。该工具在处理百GB级Hi-C、RNA-chromatin交互测序等大数据时,速度较现有工具提升最高三倍,为资源有限环境下的高通量数据分析提供可行方案。

  
随着二代测序(NGS)技术在基因组学、表观遗传学及转录组学等领域的广泛应用,海量数据的产生对生物信息学分析流程提出了严峻挑战。其中,PCR扩增过程中产生的重复序列(PCR duplicates)会引入技术偏好,影响数据定量分析的准确性,因此去重复成为NGS数据处理中至关重要的一步。尽管目前已有多种去重复方法,包括基于比对(alignment-based)的方法和de novo(无参考基因组)方法,但它们普遍存在内存占用高、处理速度慢的问题,特别是在处理Hi-C、染色质交互测序等产生超大规模数据(如上百GB)时,现有工具常需数百GB内存,限制了在普通计算平台上的应用。
为此,来自莫斯科罗蒙诺索夫国立大学生物工程与生物信息学系的Sigorskikh A.I.、Kompaniets M.A.等研究人员开发了一款名为Fastq-dupaway的新型去重复工具,致力于在保持高精度的同时大幅降低内存需求并提升运算速度。该研究已于2025年发表在《Scientific Reports》上。
为验证工具性能,作者选取了包括RADICL-seq、GRID-seq、ChIRP-seq、CHART-seq、全基因组测序、外显子组测序、ChIP-seq和Hi-C等15个不同规模和类型的公开数据集,从处理时间、内存使用和去重效率三个维度对Fastq-dupaway及其他五种常用de novo去重复工具(如FastUniq、BBTools Clumpify、CD-HIT-DUP等)进行了系统比较。
关键技术方法方面,研究采用单线程运行以保证公平比较,通过Linux time命令记录CPU时间、运行时间和内存占用(RSS)。所有数据集均来自NCBI SRA,涵盖人类、小鼠和大肠杆菌等多物种样本。工具测试包括四种Fastq-dupaway模式(tight、loose、tail-hamming、fast)以及对照工具,每种设置重复五次以评估稳定性。

性能比较显示Fastq-dupaway在速度与内存间取得良好平衡

在运行时间方面,Fastq-dupaway的“fast”模式表现最佳,其耗时最短;而“tight”“loose”和“tail-hamming”模式因依赖磁盘外部排序,其运行时间约为Seqkit rmdup和FastUniq的1.5倍,但CPU时间却优于多数工具。内存使用上,“tight”等序列比对模式能够将内存占用稳定控制在约2 GB,且不随数据量增大而增加,显著优于CD-HIT-DUP、FastUniq等工具——在处理538 GB的Hi-C数据时,后者需近1 TB内存,而Fastq-dupaway仍保持低内存消耗。此外,BBTools Clumpify在多线程下可获得3倍提速,但内存使用波动大,稳定性较差。

去重效率高度依赖算法对错配的容忍策略

当不允许序列错配时,各工具去重比例高度一致;然而一旦允许2个核苷酸错配,结果出现显著差异,某些工具额外去除的重复读段比例差异可达三倍。这种差异源于“传递性”问题:如读段A与B相差1个碱基,B与C相差1个碱基,但A与C相差2个碱基,不同工具在聚类时的判定逻辑不同,进而影响去重结果。Fastq-dupaway的“tail-hamming”模式在控制内存使用(始终2 GB)的同时,速度优于BBTools Clumpify与CD-HIT-DUP,并在大数据集上表现更为稳健。

与基于比对的去重复流程对比凸显de novo方法的计算优势

研究人员进一步将Fastq-dupaway(de novo方式)与经典比对流程(fastp+HISAT2+Samtools sort+Picard MarkDuplicates)进行资源消耗对比。结果显示,基于比对的流程因需排序步骤和Picard工具本身速度较慢,其CPU时间和内存占用均显著高于de novo流程。特别是在原始数据中PCR重复比例较高时,先进行de novo去重再比对能有效减少比对阶段的数据量,进一步提升分析效率。

研究结论与意义

Fastq-dupaway通过引入可控制内存使用的“序列比对模式”和基于哈希的“快速模式”,成功解决了当前de novo去重复工具在处理大规模NGS数据时内存需求高、计算资源受限的瓶颈。该工具在保持与现有工具相当的去重准确性的前提下,大幅降低内存占用至2–10 GB,使在普通个人计算机上处理数百GB数据成为可能。此外,其“loose”模式以更低的内存消耗复现了FastUniq的功能,适用于双端数据的高效处理。
尽管该研究未对工具进行准确性(假阳性/假阴性率)的直接评估,但通过与其他广泛使用的工具结果一致性的间接验证,表明Fastq-dupaway在各类测序数据类型中均表现可靠。本研究强调,在不需要严格依赖基因组坐标信息的应用场景下,采用de novo去重复策略可显著节约计算资源与时间成本,为大规模NGS数据分析提供了一条高效可行的技术路径。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号