定义微生物稀有生物圈的新突破:基于无监督机器学习的 ulrb 方法

【字体: 时间:2025年04月03日 来源:Communications Biology 5.2

编辑推荐:

  目前微生物稀有生物圈缺乏标准化界定方法,多依赖任意阈值,影响研究可比性。研究人员开展 “基于无监督机器学习定义微生物稀有生物圈” 的研究,提出 ulrb 方法。结果显示其比传统方法更一致,适用于多种数据。该研究为微生物稀有生物圈分析提供新途径。

  在神秘的微生物世界里,有一个特殊的 “小群体”—— 微生物稀有生物圈,它由群落中低丰度的微生物组成。这个 “小群体” 可有着大作用,被视为遗传多样性的宝库,对生态系统的抗性和恢复力至关重要,还能为宿主微生物组提供共生体,贡献新型生物合成基因 。
然而,想要深入了解这个 “小群体” 却困难重重。目前,定义微生物稀有生物圈的方法并不统一,大多数研究都依靠人为设定的阈值,比如以每个样本中 0.1% 的相对丰度为界限。但这种方法就像一把 “万能钥匙”,试图打开所有的锁,却往往不尽人意。不同的测序深度和方法会导致数据差异很大,同样的阈值在不同的测序数据中得到的结果截然不同,这使得不同研究之间难以比较,严重阻碍了对微生物稀有生物圈的深入探索。

为了攻克这一难题,来自葡萄牙波尔图大学(Departamento de Biologia, Faculdade de Ciências, Universidade do Porto)、加拿大渥太华大学(School of Electrical Engineering and Computer Science, Faculty of Engineering, University of Ottawa)等多个机构的研究人员展开了一项重要研究。他们提出了一种基于无监督机器学习的方法 ——ulrb(Unsupervised Learning based Definition of the Rare Biosphere),并将其开发成 R 包,相关研究成果发表在《Communications Biology》上。

研究人员在此次研究中运用了多种关键技术方法。首先是无监督学习算法中的 k - 中心点模型(k-medoids model)和围绕中心点划分算法(pam),利用这一算法对微生物群落中的分类单元进行聚类分析。其次,通过计算轮廓系数(Silhouette score)、戴维斯 - 布尔丁指数(Davies-Bouldin index)和卡林斯基 - 哈拉巴斯指数(Calinski-Harabasz index)来评估聚类质量。此外,研究使用了多个公开数据集和原创数据集,如挪威年轻海冰探险(N-ICE)数据集、斯瓦尔巴德和扬马延环境监测(MOSJ 2016 - 2020)数据集等,涵盖了不同的生态环境和测序策略,以此全面验证 ulrb 方法的有效性 。

下面来看看具体的研究结果:

  • 不同系统发育单位的测试:研究人员利用 N-ICE 数据集,对 amplicon sequence variants(ASVs)、Operational Taxonomic Units(OTUs)和 metagenomic operational taxonomic units(mOTUs)进行分析。ulrb 能够为这些不同的系统发育单位提供与经典稀有生物圈观点一致的 RAC 描述。同时,通过计算 Silhouette scores 发现,OTUs 和 mOTUs 的聚类效果比 ASVs 更稳健。在比较 ulrb 和基于阈值的方法时,ulrb 对不同系统发育单位的稀有性定义更为一致,能更好地反映 RAC 的形状。
  • 不同扩增子测序策略的测试:借助 MOSJ 2019 数据集,研究人员对比了短读长(V4V5 区域的 16S 基因)和长读长(全长 16S rRNA 基因)两种测序策略。ulrb 在两种测序方法中都能准确表征经典的 RAC,且其聚类结果的平均 Silhouette score 表明聚类不是人为造成的。相比之下,基于阈值的方法在不同测序策略下对稀有性的定义不一致,而 ulrb 则能提供一致的稀有性定义。
  • ulrb 的稳健性验证:利用 MOSJ2016 - 2020 数据集,研究人员测试了样本大小、分类单元数量(ASVs)和测序深度对 ulrb 的影响。结果显示,ulrb 在不同样本大小、ASVs 数量和测序深度下都表现出很强的稳健性,其聚类质量受这些因素的影响较小。而另一种方法 FuzzyQ 在处理 “常见” 分类时可能会产生人为的聚类结果,但在大样本和较多 ASVs 的情况下有所改善。
  • 非微生物数据集的验证:研究人员将 ulrb 应用于蚂蚁(Ants)和植物(BCI)数据集,发现 ulrb 能够对非微生物数据集中的物种进行丰富度分类,且分类结果合理,聚类质量良好,这表明 ulrb 在非微生物数据领域也具有适用性。
  • 利用 ulrb 确定稀有类型:通过珊瑚微生物组数据集,研究人员监测特定 mOTUs 在不同珊瑚物种、健康状态和环境中的分类变化,成功识别出不同类型的稀有性。例如,发现了某些微生物在健康珊瑚组织和坏死珊瑚组织中的不同分布情况,从而确定了它们与珊瑚健康状态的关系。

在研究结论和讨论部分,ulrb 方法展现出诸多优势。它无需依赖任意阈值,而是根据样本中分类单元之间的丰度关系自动进行聚类,能够更准确地捕捉稀有性概念,在不同测序策略和数据集之间提供一致的结果。与传统的基于阈值的方法相比,ulrb 不受测序深度和分类单元丰度变化的影响,具有更好的统计稳健性。同时,ulrb 不仅适用于微生物数据,还能应用于非微生物数据,这大大拓展了其应用范围。不过,ulrb 目前也存在一些局限性,比如无法自动计算稀有类型,且在某些实验设置下建议的标准聚类数(k = 3)可能并不适用 。

总的来说,ulrb 方法为微生物稀有生物圈的研究带来了新的曙光,它有望成为标准化分析微生物稀有生物圈的有力工具,推动相关领域的进一步发展,为探索微生物世界的奥秘提供更可靠的途径。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号