编辑推荐:
宏基因组分箱(Metagenomic binning)可助力恢复宏基因组组装基因组(MAGs),但缺乏全面评估其工具性能的基准。研究人员对 13 种宏基因组分箱工具进行基准测试,发现多样本分箱性能最优,还推荐了高效分箱工具。该研究为宏基因组研究提供了重要参考。
在神秘的微生物世界里,大部分微生物的奥秘还未被揭开。微生物作为驱动地球生物地球化学循环的 “小引擎”,其多样性超乎想象,可人类目前识别和表征的微生物种类只是冰山一角,而且许多微生物难以在实验室单独培养研究。为了探索未知的微生物群落,从宏基因组中进行 DNA 序列的从头组装并分箱成 MAGs 成为了重要手段。MAGs 就像一把钥匙,能帮助我们打开微生物生命之树的新大门,深入了解微生物的生态特征。
随着研究的推进,过去十年间涌现出了不少宏基因组分箱工具,比如 CONCOCT 利用主成分分析(PCA)进行降维、高斯混合模型(GMM)进行聚类;MaxBin 2 借助期望最大化(EM)算法将重叠群(contigs)分配到 MAGs 等。同时,宏基因组分箱也发展出了共组装、单样本和多样本三种分箱模式。
然而,现有的研究并没有全面评估不同数据类型和分箱模式组合下宏基因组分箱工具的性能,也没有充分考虑新分箱算法和基因组质量评估工具的发展。为了解决这些问题,复旦大学等机构的研究人员开展了一项全面的研究。这项研究成果发表在《Nature Communications》上。
研究人员整合了短读长、长读长和混合数据,分别与共组装、单样本和多样本分箱相结合,构建了七种数据 - 分箱组合(data-binning combinations)。他们使用基于二代测序(mNGS)、PacBio 高保真(HiFi)和牛津纳米孔(Oxford Nanopore)测序数据的五个真实世界数据集,对 13 种宏基因组分箱工具进行了基准测试。
在研究方法上,研究人员选用了五个来自不同环境的真实宏基因组数据集,这些数据集均通过短读长和长读长技术测序,且公开可获取。利用 FastQC、MultiQC、Nanoplot 等工具对测序数据进行质量控制,通过 MEGAHIT、Flye、OPERA-MS 等软件进行宏基因组组装,之后运用 CONCOCT、MaxBin 2 等 10 种工具进行 contig 分箱,使用 DAS Tool、MetaWRAP 和 MAGScoT 对分箱结果进行优化。利用 CheckM 2 评估 MAGs 的质量,通过 dRep 软件对 MAGs 进行去重,借助 RGI 和 antiSMASH 分别预测抗生素抗性基因(ARGs)和生物合成基因簇(BGCs)。
研究结果如下:
- 不同数据 - 分箱组合下分箱工具的性能:在短读长数据中,共组装分箱回收的中高质量(MQ,完整性 > 50% 且污染 <10%)、近完整(NC,完整性> 90% 且污染 < 5%)和高质量(HQ,完整性 > 90%、污染 < 5% 且含有特定 rRNA 基因和 tRNA 基因)MAGs 数量最少;多样本分箱在短读长、长读长和混合数据中,整体表现优于单样本分箱。比如在海洋短读长数据中,多样本分箱回收的 MQ、NC 和 HQ MAGs 数量相比单样本分箱分别提升了 100%、194% 和 82%。
- 高性能和高效分箱工具的确定:通过计算总体排名分数,研究人员确定了每个数据 - 分箱组合的前三大高性能分箱工具。例如,COMEBin 在四种数据 - 分箱组合中排名第一,MetaBinner 在两种组合中排名第一。MetaBAT 2、VAMB 和 MetaDecoder 被列为高效分箱工具,因为它们在时间和内存利用方面表现出色。
- 最优分箱优化工具的确定:比较 DAS Tool、MetaWRAP 和 MAGScoT 三种分箱优化工具后发现,MetaWRAP 在回收 MQ MAGs 方面表现最佳,MAGScoT 在回收 NC MAGs 方面表现最优。综合考虑,研究人员选用 MAGScoT 的结果进行进一步分析。
- 多样本分箱在物种和菌株恢复方面的优势:对海洋数据集的分析表明,多样本分箱在恢复物种和菌株多样性上明显优于单样本分箱。例如,相比短读长单样本分箱,短读长多样本分箱在 NC MAGs 的物种数量上增加了 41%,HQ MAGs 的菌株数量上增加了 71% 。
- 多样本分箱在识别潜在 ARG 宿主和 BGCs 方面的优势:在识别潜在 ARG 宿主和 BGCs 方面,多样本分箱同样表现卓越。在短读长、长读长和混合数据中,多样本分箱识别出的潜在 ARG 宿主比单样本分箱分别多 30%、22% 和 25%;识别出的潜在 BGCs 分别多 54%、24% 和 26%。
研究结论和讨论部分指出,多样本分箱在多种数据类型下均展现出优势,能更有效地恢复 MAGs,识别潜在 ARG 宿主和 BGCs,有助于微生物风险评估和潜在次生代谢物的发现。当计算资源和预算充足时,混合数据和多样本分箱是用户的最佳选择。不过,现有分箱工具在不同数据 - 分箱组合下的表现存在差异,未来可整合现有分箱工具的优势,开发更强大的分箱工具。此外,该研究也存在一定局限性,如未涉及宏基因组 Hi-C 等测序技术,且 CheckM 2 无法评估真核生物基因组质量。但总体而言,这项研究为宏基因组分箱工具的选择和应用提供了重要的参考依据,推动了微生物研究领域的发展。