
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于无监督学习算法ulrb的微生物稀有生物圈定义及其在R语言中的生态信息学架构实现
【字体: 大 中 小 】 时间:2025年05月29日 来源:Ecological Informatics 5.9
编辑推荐:
本研究针对微生物生态学中稀有类群定义缺乏生物学意义的难题,开发了基于k-medoids聚类算法的R包ulrb(Unsupervised Learning Definition of the Microbial Rare Biosphere),通过自动划分"稀有-未确定-丰富"分类体系,解决了传统相对丰度阈值法的任意性问题。该工具支持16S rRNA和宏基因组数据,为微生物群落抗性与恢复力研究提供了标准化分析框架。
微生物群落中存在着大量低丰度类群,这些被称为"稀有生物圈"(rare biosphere)的微生物在生态系统抵抗力和恢复力中扮演着关键角色,却因缺乏客观定义标准而难以系统研究。传统方法采用0.1%等固定相对丰度阈值区分稀有与丰富类群,这种人为划分既缺乏生物学依据,又导致不同研究间结果不可比。针对这一瓶颈问题,研究人员开发了基于无监督机器学习(unsupervised machine learning)的ulrb算法,并将其实现为R软件包(v0.1.8)。
这项发表在《Ecological Informatics》的研究创新性地采用分区围绕中心点算法(Partitioning Around Medoids, PAM),通过k-medoids聚类对微生物类群进行丰度自动分类。默认设置下,算法将类群划分为"稀有"(Rare)、"未确定"(Undetermined)和"丰富"(Abundant)三类,其中中间类别的引入有效避免了传统二分法中丰度相近类群被强行划分的问题。该工具包含四大功能模块:数据预处理、丰度分类、聚类质量评估和可视化,支持用户自定义分类数量和名称,并整合了轮廓系数(Silhouette score)等统计指标进行聚类质量验证。
研究团队采用挪威年轻海冰(N-ICE)考察获得的北极海洋16S rRNA基因扩增子测序数据集(包含9个样本)进行方法验证。通过V4-V5区测序生成的OTU(Operational Taxonomic Unit)和ASV(Amplicon Sequence Variant)两种生物标记均证明,ulrb能稳定识别出典型的"长尾分布"模式——绝大多数类群被归类为稀有(平均占比>80%),少量处于中间状态,极少数(通常1-2个)归为丰富类群。轮廓系数分析显示,默认三分法的聚类质量(平均轮廓系数>0.75)显著优于用户自定义的多分类方案,证实三分类体系最能反映微生物丰度的自然分布特征。
关键技术方法包括:1)基于PAM算法的一维丰度聚类;2)支持自动确定最佳聚类数k(范围2-10),通过Calinski-Harabasz指数、Davies-Bouldin指数和平均轮廓系数评估;3)采用tidy数据原则设计R包架构,整合dplyr/tidyr进行数据操作;4)提供秩丰度曲线(Rank Abundance Curve, RAC)和轮廓系数双面板可视化。
研究结果部分显示:
标准应用案例:在北极海洋数据集中,ulrb将83.7%的OTU归类为稀有,14.2%为未确定,仅2.1%为丰富类群。对数转换后的秩丰度曲线清晰呈现L型分布,与微生物群落普遍规律一致。
分类数量比较:当采用用户自定义的5分类体系("极稀有-较稀有-未确定-较丰富-极丰富")时,稀有类群被进一步细分,但轮廓系数显示聚类质量下降(平均0.68),且部分分类出现重叠。自动优化的9分类方案更导致分类边界模糊,证实默认三分类最具生态学解释力。
ASV兼容性验证:在相同样本的ASV分析中,ulrb保持一致的分类性能,稀有类群占比达85.3%,表明方法对不同的生物标记类型具有鲁棒性。
讨论部分指出,相较于现有解决方案(如MultiCoLA算法的阈值依赖法或FuzzyQ的模糊聚类),ulrb的创新性体现在:1)完全摆脱人为阈值;2)基于单样本独立聚类,避免跨样本标准化偏差;3)采用中心点聚类(PAM)而非k-means,增强对丰度离群值的稳定性。该工具已成功应用于珊瑚微生物组研究,能准确区分共栖与失调状态下的稀有类群动态。
研究结论强调,ulrb通过标准化、可重复的机器学习流程,首次实现了微生物稀有生物圈的客观定义。其开源特性(CRAN/GitHub可获取)和模块化设计,使其能无缝整合至现有生物信息分析流程。未来工作将拓展算法以整合出现频率(frequency of occurrence)数据,从而识别"条件性稀有"(conditionally rare)等更复杂的稀有类型。这项研究为微生物生态学提供了关键方法论突破,也为深度学习等需要明确稀有类群标签的研究奠定了基础。
生物通微信公众号
知名企业招聘