《Nature Communications》:TOFU-MAaPO: fast, scalable and reproducible analysis of large metagenome sequence data from the Sequence Read Archive
编辑推荐:
摘要:NCBI序列读段存档(Sequence Read Archive, SRA)中存有超过60万份宏基因组的鸟枪法测序数据,目前亟需技术先进且易用的标准化最佳实践宏基因组软件流程,以实现原始数据预处理、宏基因组组装基因组(metagenome-assembl
摘要:NCBI序列读段存档(Sequence Read Archive, SRA)中存有超过60万份宏基因组的鸟枪法测序数据,目前亟需技术先进且易用的标准化最佳实践宏基因组软件流程,以实现原始数据预处理、宏基因组组装基因组(metagenome-assembled genomes, MAGs)的组装及分类学与功能注释,从而保障大规模宏基因组数据集的可重现分析与数据调和。研究人员介绍了TOFU-MAaPO(Taxonomic Or FUnctional Metagenomic Assembly and PrOfiling,分类或功能宏基因组组装与谱分析流程),这是一种便携、自动化、单命令调用的Nextflow流程,用于大规模宏基因组短读段(short-read)测序数据分析,可在本地分析宏基因组文件,或直接通过SRA登录号(accession)或研究ID从SRA下载并分析。在与三个已有成熟宏基因组软件流程的基准测试中,TOFU-MAaPO流程产出高质量MAGs的数量多出12%、42%至77%,这很可能归因于其整合了多种互补的分箱(binning)工具并采用统一的精细化(refinement)策略。利用其无组装(assembly-free)的分类学丰度谱分析模块,研究人员还在高性能计算集群(High-Performance Computing, HPC)上,用不到55小时(含下载时间)自动从SRA下载并针对基因组分类数据库(Genome Taxonomy Database, GTDB)进行分类学注释,完成了16,462份可唯一识别且可访问的人类肠道宏基因组样本的分析。TOFU-MAaPO使独立研究团队也能更便捷地开展大型宏基因组项目,代码开源于https://github.com/ikmb/TOFU-MAaPO。
论文解读:TOFU-MAaPO——面向大规模SRA宏基因组数据的快速可扩展Nextflow分析流程
《Nature Communications》发表的本研究针对当前大规模宏基因组 shotgun 测序数据(尤其NCBI SRA中逾60万份公开宏基因组)缺乏集成分组、易用且高效的最佳实践工作流这一瓶颈,开发了基于Nextflow和Apptainer容器化的全功能单命令流程TOFU-MAaPO(Taxonomic Or FUnctional Metagenomic Assembly and PrOfiling),涵盖质量控制(quality control, QC)、无组装分类学/功能( pathway/gene)丰度估算、MAG组装与分箱精细化及GTDB-Tk分类注释,支持本地FASTQ或直接从SRA按项目/样本ID自动下载处理,在百例至万级样本规模上较nf-core/mag、ATLAS、metaFun显著提升运行速度与高质量MAG回收率,并可单命令完成上万SRA人肠道样本的无组装Sylph分类谱分析,为大队列宏基因组目录构建与微生物组关联研究(microbiome-wide association studies, MWAS)提供可重现、可扩展的解决方案。
主要关键技术方法
研究人员基于Nextflow DSL2与Apptainer/Singularity容器构建模块化流程,含63个独立子流程容器。输入支持本地双端/单端gzipped FASTQ(CSV指定)或SRA Project/Run/Sample ID配NCBI API Key自动下载。QC模块默认用FastQC初评、BBDuk切除接头及PhiX与artifact(可选fastp替代),Bowtie2去除宿主基因组读段(可选),输出MultiQC报告。功能丰度模块激活后调HUMAnN3。MAG组装模块用MEGAHIT组装(支持单样本/分组共组装/全体共组装),过滤≥2000 bp contig,minimap2建索引并回贴获得覆盖度,启用最多六种分箱工具(MetaBAT2、MaxBin2、CONCOCT、COMEBin、SemiBin2、VAMB)并行分箱后经MAGScoT合并精细化,CheckM评估完整性(completeness)与污染(contamination),GTDB-Tk(v2)分类标注。分类学丰度模块提供MetaPhlAn4、Kraken2/Bracken、Salmon及Sylph(默认GTDB r220库)四种无组装工具。基准测试用SRA项目SRP102150(100份人粪便宏基因组,ME/CFS与对照各50),硬件为双32核Intel Xeon Gold 6242、1 TB RAM节点;大规模示范用HPC(SLURM)分析ExperimentHub收录16,462份人肠道宏基因组SRA样本。
Benchmark settings for QC and MAG assembly(QC与MAG组装基准测试设置)
研究人员选取SRP102150(100个人肠道宏基因组SRA Run)为基准数据集,在同等硬件下配置TOFU-MAaPO与nf-core/mag(v3.0.2)、ATLAS(v2.18.2)、metaFun(v1.0.0),统一采用单样本分箱(single-sample binning)并开启分箱精细化。QC均含人源宿主读段去除(Bowtie2)及PhiX去除(BBDuk或等价),组装器除ATLAS用SPAdes外其余三者用MEGAHIT,分箱工具数TOFU-MAaPO用六款(MetaBAT2、MaxBin2、CONCOCT、COMEBin、SemiBin2、VAMB)后接MAGScoT精细化,对照流程用两至三款分箱工具后接DAS Tool(nf-core/mag、metaFun)或CheckM2评估(ATLAS、metaFun)。确认各流程参数与依赖版本一致,nf-core/mag与metaFun需预下载数据并制备样本CSV,TOFU-MAaPO支持边下载边处理。
Benchmark results for QC and MAG assembly(QC与MAG组装基准测试结果)
四流程均完成QC、宿主去除、组装、分箱与精细化。ATLAS因中间文件缺失报错中断,拆分输入后续跑完成。TOFU-MAaPO产出2745个高质量MAG(CheckM score ≥0.5,即completeness ≥50%且经MAGScoT过滤),分别比metaFun(2461)、nf-core/mag(1929)、ATLAS(1548)多12%、42%、77%。运行时TOFU-MAaPO含SRA下载共110.08 h处理完100样本,metaFun 74.43 h、ATLAS 92.12 h(均不含下载),nf-core/mag耗时430.15 h;nf-core/mag中CONCOCT实现方式导致大量压缩解压开销是主因,TOFU-MAaPO内CONCOCT平均每样本2.23 h(8核)显著快于nf-core/mag的8.38 h(12核),表明其并行化更优。结论:整合多分箱工具+MAGScoT精细化及高效CONCOCT实现使TOFU-MAaPO在速度接近最快竞品的同时回收更多高质量MAG。
SRA high-throughput taxonomic abundance profiling(SRA高通量分类学丰度谱分析)
为验证大规模无组装分析能力,研究人员用TOFU-MAaPO分类学模块配Sylph(GTDB release 220,113,104个细菌古菌代表基因组),单命令输入ExperimentHub中人肠道宏基因组SRA ID列表及NCBI API Key,分18批次(每批≤1000样)下载并处理16,462份有效样本,总耗时54 h 13 min(含下载),峰值单批需约4.3 TB暂存。对属水平centered log ratio(CLR)转换后进行Aitchison主成分分析(Aitchison PCA),显示Bacteroides(拟杆菌属)与Prevotella(普雷沃氏菌属)是驱动人肠道微生物组分类多样性的主要因素。证明TOFU-MAaPO可快速、准确地对大批量SRA样本做无组装分类丰度估计,适用于低覆盖或难组装数据。
讨论(Discussion)总结翻译
研究人员开发了TOFU-MAaPO软件流程,旨在为科研人员提供易用方法以可扩展、可重现方式快速处理大量宏基因组并充分利用计算资源,免除手动安装串联多款软件的负担,仅需单命令启动,各子流程自动拉取所需容器。研究表明TOFU-MAaPO通过(据研究人员所知)独特的六款分箱工具联合应用及MAGScoT精细化可产出高质量MAG,整合互补分箱策略能改善MAG回收率。TOFU-MAaPO是多用途流程,除QC与MAG组装外还含无组装分类学或基因/通路丰度模块,支持直接处理NCBI SRA大规模数据,其高通量无组装分类模块适合极短时间内评估大批样本的分类组成。未来版本将保持旧工具可用并模块化加入新工具,计划增加组装/分箱工具、MAG去冗余(dereplication)模块及EggNOG-mapper功能注释,以支持从下载宏基因组数据直接构建基因目录,使独立研究组也能开展原需大型联盟协作的宏基因组与基因目录项目。基于Nextflow与Apptainer的框架不仅提升分析效率,也降低了对大规模宏基因组数据科学的准入门槛。