RabbitTrim:一款在多核平台上高效且用途广泛的修剪工具

《IEEE Transactions on Computational Biology and Bioinformatics》:RabbitTrim: An Efficient and Versatile Trimmer on Multi-Core Platforms

【字体: 时间:2025年12月12日 来源:IEEE Transactions on Computational Biology and Bioinformatics

编辑推荐:

  测序数据预处理中适配器修剪工具性能优化研究。RabbitTrim通过高效I/O、并行压缩、块内存池等技术提升处理速度,在48核服务器上比Trimmomatic快1.8-14倍,比Ktrim快1.5-5.6倍,可5分钟处理101GB压缩数据。

  

摘要:

数据修剪是序列处理中的一个关键步骤。然而,许多现有的修剪工具(如Trimmomatic和Ktrim)由于实现方式不够优化,未能充分利用现代多核平台的计算能力。为了解决这个问题,我们推出了RabbitTrim,这是一个高度优化且功能多样的修剪工具,它完全支持Trimmomatic和Ktrim的所有功能。RabbitTrim通过高效的I/O策略、并行(解)压缩引擎、基于块的内存池、位运算以及向量化技术提升了性能。与Trimmomatic相比,在48核Intel服务器上,RabbitTrim(处于trimmomatic模式)处理普通FASTQ文件的速度提升了1.8倍到6.0倍,处理gzip压缩的FASTQ文件的速度提升了3.7倍到14.0倍;同样,在同一服务器上,RabbitTrim(处于ktrim模式)处理普通FASTQ文件的速度提升了1.5倍到2.5倍,处理gzip压缩的FASTQ文件的速度提升了2.7倍到5.6倍。此外,RabbitTrim仅需5分钟即可处理101 GB的gzip压缩序列数据,而Trimmomatic至少需要21分钟。

引言

下一代测序(NGS)数据经常遇到接头污染的问题[15]。当目标序列长度小于测序仪的最小读取长度时,可能会发生“读取穿透”现象,导致测序结果中不仅包含所需的目标序列,还包含接头的片段或完整部分。准确去除接头至关重要,因为它们的存在会显著影响后续分析。此外,随着高通量测序技术的快速发展,序列数据的量呈指数级增长。数据量的增加使得接头修剪变得更加困难。因此,已经提出了多种用于接头修剪的工具,包括Trimmomatic [2]、fastp [3]、AdapterRemoval [8] 和 Cutadapt [9]。在这些工具中,Trimmomatic因其适应性和处理Illumina测序数据的准确性而受到研究人员的青睐。它的广泛应用体现在多个研究中,包括测序质量控制第二阶段(SEQC2)联盟[4]。Trimmomatic提供了多种读取修剪和过滤功能,支持两种不同的模式:简单模式和回文模式。这些模式能够有效检测和去除单端和双端读取中的接头,确保高质量的测序结果。然而,在处理大规模数据集时,处理效率可能成为显著的限制。为了解决这个问题,一些接头修剪工具(如AdapterRemoval v2 [10] 和 Ktrim [11])已经进行了改进以提高性能。新发布的Ktrim支持多种库格式,兼具高速度、高准确性和灵活性,成为处理大规模序列数据集的研究人员的宝贵工具,有效缓解了现代NGS数据预处理中的性能瓶颈。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号