Fastq-dupaway：面向大规模NGS数据的高效去重复工具，实现低内存消耗与快速处理

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Fastq-dupaway: a fast and memory-efficient tool for deduplication of single- and paired-end NGS data

【字体：大中小】 时间：2025年11月26日 来源：Scientific Reports 3.9

编辑推荐：

　　本文推荐一款名为Fastq-dupaway的新型去重复工具，其针对二代测序（NGS）数据中PCR重复序列去除的算力瓶颈，提出基于外排序与序列比对的两种核心模式，在保证去重准确性的同时将内存占用控制在2–10 GB，且支持单端与双端数据。该工具在处理百GB级Hi-C、RNA-chromatin交互测序等大数据时，速度较现有工具提升最高三倍，为资源有限环境下的高通量数据分析提供可行方案。

随着二代测序（NGS）技术在基因组学、表观遗传学及转录组学等领域的广泛应用，海量数据的产生对生物信息学分析流程提出了严峻挑战。其中，PCR扩增过程中产生的重复序列（PCR duplicates）会引入技术偏好，影响数据定量分析的准确性，因此去重复成为NGS数据处理中至关重要的一步。尽管目前已有多种去重复方法，包括基于比对（alignment-based）的方法和de novo（无参考基因组）方法，但它们普遍存在内存占用高、处理速度慢的问题，特别是在处理Hi-C、染色质交互测序等产生超大规模数据（如上百GB）时，现有工具常需数百GB内存，限制了在普通计算平台上的应用。

为此，来自莫斯科罗蒙诺索夫国立大学生物工程与生物信息学系的Sigorskikh A.I.、Kompaniets M.A.等研究人员开发了一款名为Fastq-dupaway的新型去重复工具，致力于在保持高精度的同时大幅降低内存需求并提升运算速度。该研究已于2025年发表在《Scientific Reports》上。

为验证工具性能，作者选取了包括RADICL-seq、GRID-seq、ChIRP-seq、CHART-seq、全基因组测序、外显子组测序、ChIP-seq和Hi-C等15个不同规模和类型的公开数据集，从处理时间、内存使用和去重效率三个维度对Fastq-dupaway及其他五种常用de novo去重复工具（如FastUniq、BBTools Clumpify、CD-HIT-DUP等）进行了系统比较。

关键技术方法方面，研究采用单线程运行以保证公平比较，通过Linux time命令记录CPU时间、运行时间和内存占用（RSS）。所有数据集均来自NCBI SRA，涵盖人类、小鼠和大肠杆菌等多物种样本。工具测试包括四种Fastq-dupaway模式（tight、loose、tail-hamming、fast）以及对照工具，每种设置重复五次以评估稳定性。

性能比较显示Fastq-dupaway在速度与内存间取得良好平衡

在运行时间方面，Fastq-dupaway的“fast”模式表现最佳，其耗时最短；而“tight”“loose”和“tail-hamming”模式因依赖磁盘外部排序，其运行时间约为Seqkit rmdup和FastUniq的1.5倍，但CPU时间却优于多数工具。内存使用上，“tight”等序列比对模式能够将内存占用稳定控制在约2 GB，且不随数据量增大而增加，显著优于CD-HIT-DUP、FastUniq等工具——在处理538 GB的Hi-C数据时，后者需近1 TB内存，而Fastq-dupaway仍保持低内存消耗。此外，BBTools Clumpify在多线程下可获得3倍提速，但内存使用波动大，稳定性较差。

去重效率高度依赖算法对错配的容忍策略

当不允许序列错配时，各工具去重比例高度一致；然而一旦允许2个核苷酸错配，结果出现显著差异，某些工具额外去除的重复读段比例差异可达三倍。这种差异源于“传递性”问题：如读段A与B相差1个碱基，B与C相差1个碱基，但A与C相差2个碱基，不同工具在聚类时的判定逻辑不同，进而影响去重结果。Fastq-dupaway的“tail-hamming”模式在控制内存使用（始终2 GB）的同时，速度优于BBTools Clumpify与CD-HIT-DUP，并在大数据集上表现更为稳健。

与基于比对的去重复流程对比凸显de novo方法的计算优势

研究人员进一步将Fastq-dupaway（de novo方式）与经典比对流程（fastp+HISAT2+Samtools sort+Picard MarkDuplicates）进行资源消耗对比。结果显示，基于比对的流程因需排序步骤和Picard工具本身速度较慢，其CPU时间和内存占用均显著高于de novo流程。特别是在原始数据中PCR重复比例较高时，先进行de novo去重再比对能有效减少比对阶段的数据量，进一步提升分析效率。

研究结论与意义

Fastq-dupaway通过引入可控制内存使用的“序列比对模式”和基于哈希的“快速模式”，成功解决了当前de novo去重复工具在处理大规模NGS数据时内存需求高、计算资源受限的瓶颈。该工具在保持与现有工具相当的去重准确性的前提下，大幅降低内存占用至2–10 GB，使在普通个人计算机上处理数百GB数据成为可能。此外，其“loose”模式以更低的内存消耗复现了FastUniq的功能，适用于双端数据的高效处理。

尽管该研究未对工具进行准确性（假阳性/假阴性率）的直接评估，但通过与其他广泛使用的工具结果一致性的间接验证，表明Fastq-dupaway在各类测序数据类型中均表现可靠。本研究强调，在不需要严格依赖基因组坐标信息的应用场景下，采用de novo去重复策略可显著节约计算资源与时间成本，为大规模NGS数据分析提供了一条高效可行的技术路径。

联系信箱：

粤ICP备09063491号

性能比较显示Fastq-dupaway在速度与内存间取得良好平衡

去重效率高度依赖算法对错配的容忍策略

与基于比对的去重复流程对比凸显de novo方法的计算优势

研究结论与意义

热点排行