Cleanifier:基于人类泛基因组间隔种子索引的微生物序列污染清除新方法

《Bioinformatics》:Cleanifier: Contamination removal from microbial sequences using spaced seeds of a human pangenome index

【字体: 时间:2025年11月19日 来源:Bioinformatics 5.4

编辑推荐:

  本研究针对微生物组测序数据中人类DNA污染带来的隐私泄露和分析干扰问题,开发了基于间隔种子(gapped k-mer)的快速、低内存占用的污染清除工具Cleanifier。该方法利用人类泛基因组索引,通过Cuckoo哈希表或概率过滤器实现高效查询,在保证高精度的同时大幅提升处理速度,为大规模宏基因组研究提供了可靠解决方案。

  
在人类微生物组研究中,测序数据中混杂的人类DNA如同不受欢迎的"偷渡者",不仅可能泄露个人隐私信息,还会干扰后续的微生物分析。随着各国对基因数据隐私保护要求的日益严格,以及大规模宏基因组项目的不断推进,如何快速、准确地剔除这些"不速之客"成为研究者面临的重要挑战。
传统的人类序列污染清除方法主要分为两类:基于比对的工具如Hostile使用Bowtie2或Minimap2进行序列比对,虽然准确但计算成本高昂;基于k-mer的方法如Kraken2虽然速度较快,但需要庞大的数据库且内存占用较高。这两种方法在处理海量微生物组数据时都存在明显短板,要么速度慢如蜗牛,要么内存需求大如饕餮。
来自德国萨尔大学的研究团队在《Bioinformatics》上发表的研究中,提出了一个名为Cleanifier的创新工具,它巧妙地运用了"间隔种子"(gapped k-mer)技术,类似于在DNA序列上使用带有"通配符"的搜索模式,使得工具在保持高精度的同时,对单核苷酸多态性(SNP)和测序错误具有更好的容错性。
为了开展这项研究,团队构建了全面的人类泛基因组索引,包含T2T参考基因组、人类泛基因组参考联盟的47个基因组组装、千人基因组计划的常见变异、IPD-IMGT/HLA数据库的所有HLA基因变异以及人类cDNA序列。Cleanifier支持两种高效的数据结构:精确的多路分桶Cuckoo哈希表和概率性窗口Cuckoo过滤器,后者仅需约6.9GB内存,大大降低了资源需求。
研究团队设计了两种读取分类模式:敏感模式查询所有的间隔种子,而采样模式则每隔[w/2]个间隔种子查询一次,在保证精度的同时显著提升速度。工具采用生产者-消费者架构实现并行处理,支持单端和双端测序数据,以及长短读长技术。
短读长数据准确度评估
在5个人类全基因组测序数据集(HG002-HG006)上,Cleanifier表现出色,移除了超过97%的人类读长,与Deacon和HRRT工具性能相当。值得注意的是,没有工具能移除100%的读长,这可能是因为这些数据集中确实存在非人类污染(如病毒或技术伪迹)。在微生物组数据(CAMI 2挑战数据集)上,Cleanifier保持了接近100%的微生物读长保留率,表现优于Kraken2和noHuman。
处理速度对比
Cleanifier的采样模式成为速度冠军,处理5000万对短读长仅需约100秒,比第二快的noHuman工具还要快1.5倍。敏感模式虽然稍慢,但仍显著快于HRRT和Kraken2等工具。特别值得注意的是,基于比对的Hostile工具在处理人类数据时速度极慢,比Cleanifier采样模式慢72倍,但在处理微生物数据时速度较快,因为大部分读长无法找到比对起始点。
读长分类重叠分析
通过韦恩图分析HG002数据集中各工具保留的人类读长,发现Cleanifier(概率性)在采样和敏感模式下保留的读长几乎是Hostile保留读长的真子集,且与其他工具保留的读长高度重叠,这表明这些读长可能确实是污染物或技术伪迹,而非真正的人类序列。
长读长数据性能
在PacBio长读长数据上,Cleanifier同样表现出色,所有工具在微生物数据集上的准确度都接近100%。在人类HG002数据集上,Cleanifier的准确度超过99.9%,优于Deacon、Kraken2、HRRT和Hostile。长读长由于包含更多k-mer信息,提供了更强的分类信号,因此总体准确度高于短读长。
内存需求分析
Cleanifier在使用概率性Cuckoo过滤器时仅需6.9GB内存,而精确的Cuckoo哈希表也只需13.85GB,远低于Kraken2标准数据库的88.83GB内存需求。Hostile、HRRT和Deacon的内存占用均低于5GB,显示出各自在内存优化方面的优势。
研究证明,Cleanifier作为一个基于间隔种子的污染清除工具,在速度、内存效率和准确性之间实现了优异平衡。其采样模式使其成为最快的工具,而概率性Cuckoo过滤器的使用使得工具在8GB内存系统上即可运行。与Deacon的设计选择(精确最小采样器与概率性完整间隔种子集存储)形成鲜明对比,为未来工具优化提供了不同思路。
Cleanifier的突出优势在于其灵活性——不仅支持人类污染清除,还能通过构建自定义数据库用于其他宿主生物(如小鼠肠道微生物组中的小鼠序列清除)。工具的共享内存功能允许多个实例同时使用同一索引,进一步提升了多样本场景下的效率。
这项研究为解决微生物组数据分析中的关键瓶颈问题提供了创新方案,其开源特性(通过GitLab、PyPi和Bioconda提供)将促进工具的更广泛应用和持续改进,推动宏基因组研究向更高效、更隐私安全的方向发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号