从二值化的人类口腔微生物数据结合多个分类器 ensemble 中预测年龄

《mSystems》:Predicting age from binarized human oral microbial data combined with an ensemble of classifiers

【字体: 时间:2025年11月01日 来源:mSystems 4.6

编辑推荐:

  口腔微生物组多样性随年龄显著变化,本研究通过二进制离散化结合集成模型(32 XGBoost分类器)预测年龄,在150样本验证集MAE达7.20年,扩展至2550样本时MAE降至4.80年,优于传统方法。

  口腔微生物群与年龄之间的关系一直是微生物学研究的一个重要课题。随着年龄的增长,人体微生物群的组成和多样性会发生显著变化,这种变化不仅体现在肠道微生物群中,也存在于口腔微生物群中。本研究旨在探索这一关联,并开发一种基于口腔微生物数据的年龄预测模型。通过分析150名年龄跨度为6至78岁的个体的唾液样本,研究团队发现,微生物多样性与年龄存在正相关关系。在对多种数据处理方法的比较中,研究者开发了一种基于二值化数据和集成学习的模型,这种模型在预测年龄方面表现优异,为未来年龄相关研究提供了坚实的基础。

研究首先对样本进行了16S rRNA基因靶向测序,以分析口腔微生物群的组成。测序结果表明,微生物群的组成随着年龄的变化而发生改变,其中某些细菌门和属在不同年龄段表现出显著差异。例如,Proteobacteria门在老年群体中的相对丰度显著增加,而Firmicutes门则呈现出相反的趋势。这些差异不仅揭示了微生物群在年龄相关的演变,还为年龄预测提供了潜在的生物标志物。此外,通过使用Kruskal-Wallis检验和Dunn检验,研究团队进一步确认了不同年龄组之间的微生物群组成差异,并发现年龄是影响微生物群结构的主要因素之一。

为了提高年龄预测的准确性,研究团队对四种不同的数据处理方法进行了系统比较,包括二值化、相对丰度、log2转换和中心化log-ratio(CLR)转换。他们引入了信号与噪声比(SNR)的概念,以评估每种方法在区分不同年龄组时的有效性。结果显示,二值化、log2转换和CLR转换在年龄预测方面优于传统的相对丰度方法。其中,CLR转换表现最为出色,显示出较高的SNR值。这些发现表明,将微生物数据转化为二值化形式可能有助于更有效地捕捉年龄相关的微生物特征,同时减少数据中的噪声干扰。

基于二值化数据,研究团队构建了一个集成模型,该模型结合了32个XGBoost分类器。这种模型在预测年龄方面表现出了显著的优越性,其在独立验证集(n=15)中的平均绝对误差(MAE)为7.20年,而在20-59岁子群体中的MAE为4.33年。当样本数量增加到2,550时,模型在独立验证集(n=255)中的MAE下降至4.80年,而在20-59岁子群体中的MAE进一步降至3.76年。这表明,该模型不仅具有良好的预测能力,还具备较强的泛化能力和鲁棒性。此外,与之前发表的基于口腔微生物群的年龄预测模型相比,本研究提出的模型在预测精度上有了显著提升,进一步验证了其有效性。

在构建集成模型的过程中,研究团队考虑了多种算法,并对它们的性能进行了系统评估。结果显示,XGBoost算法在二值化数据上表现最佳,而其他算法如KNN、LDA、SVM和RF也展示了不同程度的预测能力。通过使用LASSO回归进行特征选择,研究团队确定了与年龄显著相关的ASV(扩增子序列变异体),这些特征被用于后续的模型训练和验证。研究还发现,年龄分组的宽度对模型性能有重要影响,选择合适的年龄分组能够提高预测的准确性。例如,在二值化数据中,当年龄分组宽度为20年时,模型的MAE最低,表现出最优的预测效果。

除了年龄相关的因素,研究还探讨了性别对模型性能的影响。通过将数据集按性别进行划分,并使用性别作为虚拟变量进行分析,研究团队发现性别对模型的预测效果影响有限。这表明,虽然性别在微生物群的组成中具有一定的影响,但其对年龄预测的干扰较小,因此在模型构建过程中可以忽略性别这一变量。此外,研究团队还评估了在不考虑性别的情况下模型的表现,并发现结果与性别相关的模型表现无显著差异,进一步支持了模型的鲁棒性。

研究团队还对模型在更大数据集上的表现进行了评估。他们将二值化数据和集成模型应用于包含2,550个样本的数据集,该数据集涵盖了多个国家的样本。结果表明,模型在独立验证集(n=255)中的MAE为4.80年,而在20-59岁子群体中的MAE进一步降至3.76年。这表明,该模型不仅适用于小规模研究,还能够很好地泛化到更大的数据集,显示出其广泛的应用潜力。此外,通过与之前发表的模型进行比较,研究团队发现,他们的模型在预测精度上具有明显优势,特别是在处理高维、稀疏和过度分散的微生物数据时。

研究还探讨了微生物群与年龄之间的潜在生物学机制。例如,Proteobacteria门的增加可能与宿主的免疫代谢变化有关,而Firmicutes门的减少则可能与慢性炎症的加剧有关。这些发现不仅加深了我们对年龄相关微生物变化的理解,还为未来的研究提供了新的方向。此外,研究团队还指出,微生物群的多样性变化可能受到口腔疾病的影响,因此在研究年龄与微生物群关系时,需要考虑宿主的健康状况。

在数据处理和模型构建过程中,研究团队采用了多种方法,包括特征选择、超参数调优和模型验证。他们通过随机划分数据集,确保模型的泛化能力,并利用交叉验证方法优化模型性能。此外,研究团队还对模型的鲁棒性进行了评估,发现即使在样本数量有限的情况下,集成模型仍能提供较高的预测精度。这些方法的综合应用使得模型在处理复杂的微生物数据时表现出色。

研究的局限性主要包括样本量的限制和潜在的混杂因素。例如,在年龄分布的两端(最年轻和最年长的个体)中,模型的预测性能相对较低,这可能与样本量不足或数据分组的边缘效应有关。此外,研究中未充分考虑地理环境、生活方式和疾病状态等因素对微生物群的影响。这些因素可能在不同的研究环境中对模型性能产生影响,因此在未来的研究中需要进一步探讨这些变量的作用。

总体而言,本研究通过分析口腔微生物群的组成和多样性,揭示了年龄与微生物群之间的显著关联,并开发了一种基于二值化数据和集成学习的年龄预测模型。该模型在预测精度和泛化能力方面表现出色,为基于微生物群的年龄预测提供了新的思路和方法。这些发现不仅对理解年龄相关的微生物变化具有重要意义,还为未来的生物医学和法医学研究提供了有价值的工具。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号