编辑推荐:
在微生物组研究中,16S rRNA 基因扩增子测序存在误差。研究人员对比 DADA2、UPARSE 等 8 种算法,发现 ASV 算法(如 DADA2)输出一致但过分割,OTU 算法(如 UPARSE)错误低但过合并。该研究为评估新算法提供框架。
在微生物的神秘世界里,研究人员一直渴望洞悉微生物群落的组成与奥秘,16S rRNA 扩增子测序技术应运而生,它就像一把钥匙,试图打开微生物组研究的大门。然而,这把钥匙并不完美,在测序过程中,它会受到各种因素的干扰,产生诸如污染序列、PCR 点错误、嵌合人工序列和测序错误等问题。这些错误就像隐藏在暗处的 “捣蛋鬼”,严重影响了对微生物群落多样性的准确判断,使得研究人员难以精准识别真正代表微生物群落成员的生物读数。
以往的研究中,虽然有众多算法试图解决这些问题,但由于实验设置和参数的差异,不同算法之间难以进行客观比较。而且,用于测试的模拟群落样本也无法完全展现真实生物环境中的微生物复杂性。为了突破这些困境,来自埃及尼罗河大学、比利时根特大学等多个研究机构的研究人员踏上了探索之旅,他们开展了一项全面且深入的研究,相关成果发表在《Environmental Microbiome》杂志上。
研究人员主要采用了以下关键技术方法:首先,利用两种主要的模拟群落数据,包括 HC227_V3V4(由 227 种细菌菌株的基因组 DNA 组成)和 Mockrobiota 数据库中的 13 个数据集。其次,对序列进行统一的预处理,如质量检查、引物筛选、长度修剪等。最后,对比分析了 4 种 ASV 去噪方法(DADA2、Deblur、MED、UNOISE3)和 4 种聚类方法(UPARSE、平均邻域(AN)、Opticlust、VSEARCH)的性能 。
研究结果如下:
- 微生物组成准确性:在微生物组成分析方面,DADA2 和 UPARSE 表现出色。对于 HC227_V3V4 数据集和 Mockrobiota 模拟群落,它们的精确匹配数最多,能更准确地反映微生物的真实组成。
- 错误率评估:在错误率方面,DADA2、UPARSE 和 DGC 的整体错误率最低,表明它们在处理错误序列时表现较好;而 MED 和 UNOISE3 的错误率较高,反映出这两种算法在评估微生物群落时存在较大偏差。
- 合并与分割分析:在合并与分割分析中,UPARSE、DGC 和 DADA2 在正确分配 OTUs/ASVs 方面表现突出,过分割和过合并的情况较少;MED 和 UNOISE3 则表现较差,存在较多的错误分配。
- 多样性分析:在多样性分析中,DADA2 和 Deblur 在 alpha 多样性和 beta 多样性分析中,与理论参考的相似度较高;对于聚类算法,UPARSE 与预期输入的相似度最高,能较好地反映微生物群落的多样性。
- 计算资源与参数影响:计算资源和参数影响方面,MED 和 Deblur 的执行时间较长,MED 的内存需求也较大。此外,研究还发现,对于基于聚类的算法,0.03 的聚类截断值是最优的。
在研究结论和讨论部分,研究人员指出,OTU 和 ASV 这两种方法各有利弊。ASV 算法(如 DADA2)在提供一致的序列变异方面表现优异,适合用于独立样本或荟萃分析研究,但默认参数会导致过分割和错配增加;而 OTU 算法(如 UPARSE)在处理测序错误和平衡合并 / 分割率方面表现更佳,适用于研究尚未充分了解的微生物生态位或预期有重大微生物变化的情况。该研究通过使用复杂的模拟群落数据和统一的预处理步骤,为 OTU/ASV 算法的比较提供了一个可靠的框架,也为未来评估新工具和算法奠定了坚实的基础,有助于推动微生物组研究领域朝着更加精准、高效的方向发展。