基于机器学习模型的肠道微生物组分析揭示多自身免疫性疾病的微生物标志物
【字体:
大
中
小
】
时间:2025年09月26日
来源:Frontiers in Microbiology 4.5
编辑推荐:
本研究通过整合1,954例肠道微生物组测序数据,运用机器学习模型(XGBoost)成功鉴定出10种自身免疫性疾病(AIDs)共有的微生物特征标志物,模型预测效能优异(AUROC达0.89),为AIDs的非侵入性辅助诊断及肠道免疫微环境机制研究提供了新视角。
人类肠道微生物组是一个包含细菌、古菌和真核生物的复杂微生物群落,其细胞数量超过人体自身细胞的十倍以上,基因多样性远超人类基因组。这些微生物通过调节病原体抵抗、宿主免疫和代谢过程,在维持宿主防御与免疫耐受的平衡中扮演关键角色。自身免疫性疾病(AIDs)是免疫系统错误攻击自身组织引起的疾病,全球发病率约3–5%,而肠道微生物组的改变被认为是导致免疫耐受破坏的重要因素。
随着二代测序(NGS)技术的发展,研究人员开始通过生物信息学分析探索肠道微生物组失调与AIDs的关联,包括微生物分类单元鉴定、相对丰度比较以及差异微生物标志物的筛选。然而,单一疾病模型在诊断时面临共享微生物特征和健康状态重叠的挑战,导致误分类风险。因此,多类诊断模型的发展成为提高诊断准确性的关键。
本研究对10种AIDs(包括类风湿关节炎RA、强直性脊柱炎SpA、多发性硬化MS、银屑病、克罗恩病CD、溃疡性结肠炎UC、乳糜泻CeD、重症肌无力MG、系统性红斑狼疮SLE和1型糖尿病T1D)的1,954个肠道微生物组测序数据集进行了综合分析,旨在通过差异丰度检验和机器学习技术,鉴定这些疾病共有或独特的微生物标志物。
研究框架包括数据集划分、模型训练和验证。数据来源于NCBI BioProject和GMrepo等公共数据库,共收集1,043例患者和911例对照的肠道微生物组16S rRNA测序数据。数据预处理使用Trimmomatic和QIIME进行质控和去噪, taxonomic assignment基于Greengenes数据库(version 13.8123),保留属水平相对丰度数据进行后续分析。
微生物组分析采用R语言进行,包括alpha多样性(Shannon指数和丰富度)的非参数Kruskal–Wallis检验,beta多样性基于Bray–Curtis距离矩阵的PERMANOVA分析,以及主坐标分析(PCoA)可视化。为控制年龄、性别、国家和测序批次等混杂因素,使用MaAsLin2进行多变量关联分析,并用MMUPHin包校正批次效应。
分类模型构建包括二分类和多分类机器学习算法。二分类采用随机森林(RF)模型,区分每种AID与健康对照。多分类模型评估了五种算法:RF、支持向量机(SVM)、K近邻(KNN)、多层感知器(MLP)和极限梯度提升(XGBoost),通过5折交叉验证和网格搜索优化参数,最终选择性能最优的XGBoost模型进行进一步分析。
模型性能通过AUROC、AUPRC和F1-score等指标评估,并采用bootstrap方法进行1,000次重采样以降低过拟合。同时,进行敏感性分析,评估性别、年龄和地理因素对模型的影响。
数据概要共纳入1,954个样本,覆盖10种AIDs,样本主要来自美国(38.18%)、中国(32.44%)和加拿大(11.36%)。微生物组特征分析显示,除RA外,所有AIDs的Shannon指数和丰富度均与健康对照有显著差异,消化系统AIDs的多样性降低。Beta多样性分析表明不同表型间微生物组成存在显著差异(R=0.396, F=36.057, p<0.001)。MaAsLin2分析鉴定出192个显著关联,涉及62个细菌属(FDR<0.05),其中67.7%的属与两种或以上疾病相关。
诊断模型开发中,二分类RF模型能显著区分健康与多数AIDs。多分类模型中,XGBoost表现最优,平均AUROC为0.89(IQR 0.87–0.90),AUPRC为0.48(IQR 0.44–0.51),F1-score为0.538(IQR 0.51–0.57)。学习曲线显示,使用77个特征时模型性能达到平台期,因此选择前77个属作为最终输入变量。该模型在测试集上对多数疾病的AUROC超过0.9,例如CD的AUROC为0.95,灵敏度0.94,特异性0.89。模型在不同分割比例下均表现稳定。
微生物特征与表型关联分析发现,77个重要属中有126个显著关联,涉及42个属,分属厚壁菌门(Firmicutes, 28属)、放线菌门(Actinobacteria, 6属)、变形菌门(Proteobacteria, 5属)、梭杆菌门(Fusobacteria, 1属)和拟杆菌门(Bacteroidetes, 3属)。CD、RA和银屑病是关联属数量最多的表型(分别23、21和20个),而SpA和CeD较少(<5个)。放线菌属(Actinobacteria)和瘤胃球菌科II(Ruminococcaceae II)与最多AIDs表型相关(6种),志贺氏菌属(Shigella)、梭菌属(Clostridium)和艾格特菌属(Eggerthella)也与5种表型相关。这些属可能作为共享微生物特征,而多尔氏菌属(Dorea)、毛螺菌属(Lachnobacterium)等仅与一种表型相关,提示其特异性。
有趣的是,同一系统疾病(如CD和UC)显示出相似的微生物改变趋势,共享11个属且变化方向一致。银屑病和SLE也共享8个属具有相似趋势。相反,某些表型间(如银屑病与MG、银屑病与RA)共享微生物特征却呈现相反变化趋势,例如银屑病与MG共享10个属(包括放线菌属、丁酸球菌属等),但变化方向相反。这些结果表明,不同AIDs可能具有截然相反的肠道微生物微环境特征。
敏感性分析显示,模型在美国和中国样本中均表现一致(AUROC分别为0.90和0.91),性别、年龄和地理因素不是主要影响因素。
本研究通过整合大规模公共数据集和机器学习方法,证实了基于肠道微生物组的多分类模型在AIDs诊断中的可行性。鉴定出的微生物特征与既往研究一致,如艾格特菌属(Eggerthella)和普雷沃菌属(Prevotella)在SLE中富集, Fusobacterium在IBD中增加。同时,也发现了一些既往较少报道的属,如罗氏菌属(Rothia)与SLE、RA和IBD相关,副普雷沃菌属(Paraprevotella)在MS、CD、UC和CeD中显著减少,其代谢物agmatine可能通过Wnt信号通路促进肠道肿瘤发生,提示其在AIDs肠道免疫微环境调节中的关键机制。
微生物改变相似性分析提示,IBD亚型(CD和UC)共享较多微生物特征,可能源于相似的肠道免疫微环境;银屑病和SLE共享8个属,可能涉及Th17细胞介导的炎症机制。相反,银屑病与MG、银屑病与RA共享特征却呈现相反趋势,这些属多数与Th17细胞或T细胞炎症反应相关,表明不同AIDs中肠道微生物组可能通过影响Th17/Treg平衡,导致不同病理表型。
研究优势包括大样本量和多疾病表型覆盖,但存在局限性:公共数据缺乏宿主合并症、饮食、BMI和治疗信息;分析仅限于属水平;回顾性数据无法验证因果时序。未来需前瞻性收集样本,结合宏基因组测序,深入探索微生物功能及其在疾病进展和干预中的价值。
本研究揭示了AIDs中肠道微生物组的组成变化及其与疾病表型的显著关联,通过机器学习鉴定出多个一致性改变的微生物标志物。这些发现为AIDs的非侵入性诊断提供了新策略,并为探究肠道微生物在宿主免疫调节和疾病发病机制中的具体作用奠定了基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号