
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于机器学习的10种微生物标志物无创诊断模型助力炎症性肠病精准诊疗
【字体: 大 中 小 】 时间:2025年07月15日 来源:Cell Regeneration 4
编辑推荐:
本研究针对炎症性肠病(IBD)诊断依赖侵入性检查、误诊率高的问题,通过整合9个队列的6797份样本(含宏基因组和16S数据),利用XGBoost算法构建了10种微生物物种标志物诊断模型(XGB-IBD10)。该模型在测试集准确率达87.22%,外部验证队列(181份中国样本)准确率80.66%,显著优于现有标志物(如RISK-IBD21)。研究首次发现Oscilibacter massiliensis等新型生物标志物,并证实微生物数据对活动期IBD判别的价值(AUC 0.8398),为IBD无创诊断提供新工具。
背景:临床诊断的困境与机遇
炎症性肠病(IBD)包含克罗恩病(CD)和溃疡性结肠炎(UC),其诊断长期依赖结肠镜等侵入性检查,患者痛苦大且易误诊。传统生物标志物如C反应蛋白(CRP)和粪钙卫蛋白特异性不足,难以区分IBD与肠易激综合征(IBS)。近年研究发现肠道微生物组与IBD密切相关,但既往微生物标志物模型(如RISK-IBD21)在跨人群验证中表现不稳定。能否利用机器学习整合多源数据,构建高精度、易推广的无创诊断工具?这一挑战激发了广州国家实验室、清华大学和北京大学第三医院团队的合作研究。
核心方法:多队列整合与算法优化
研究团队通过四项关键技术展开攻关:
多中心队列构建:整合9个公共队列(6,797份样本)及自建中国队列(MC-IBD,181份粪便样本),涵盖宏基因组和16S rRNA测序数据;
数据标准化:采用min-max归一化统一不同测序平台数据,并利用SMOTE算法解决样本不平衡问题;
特征筛选:基于方差分析和SHAP值(SHapley Additive exPlanations)筛选Top 1000高变异物种,最终锁定10个核心物种;
模型构建:以XGBoost算法建立XGB-IBD10模型,对比随机森林、CNN等7种机器学习方法,并通过十折交叉验证优化性能。
研究结果
微生物组关联分析
通过对181例中国队列样本(107例IBD vs 74例健康对照)的宏基因组分析,发现:
• β多样性分析(PCoA)显示IBD患者菌群结构显著偏移(p<0.01);
• 47个物种丰度与IBD显著相关,其中22种益生菌(如Faecalibacterium)在IBD中普遍下降(图1G);
• 18.69% IBD样本存在宿主DNA污染,提示样本处理需优化(图1C)。
XGB-IBD10模型性能
• 跨平台优势:联合宏基因组与16S数据训练的模型(准确率87.22%)显著优于单一数据类型(宏基因组模型79.99%,16S模型80.11%)(图3A vs 图4A,C);
• 外部验证:在MC-IBD队列准确率达80.66%,优于HMP2-IBD100(74.59%)等现有模型(表1);
• 关键物种:SHAP值揭示Dorea formicigenerans(健康相关)和Clostridioides difficile(IBD相关)为最显著标志物(图3K)。
临床场景应用
• 疾病分型:UC/CD亚型判别模型在测试集准确率91.10%,但外部验证仅64.08%(图4E-F),提示亚型诊断需进一步优化;
• 活动期预测:微生物组模型(AUC 0.8398)比临床数据模型(AUC 0.8191)更精准区分活动期/缓解期,Parabacteroides distasonis丰度升高与活动期强相关(图6D-G);
• 鉴别诊断:IBD与IBS判别模型在AGP队列准确率68.44%,Pseudoxanthomonas mexicana为关键差异物种(图7C-D)。
结论与意义
本研究首次构建了基于10种微生物物种的XGB-IBD10诊断模型,其创新价值体现在三方面:
技术突破:通过标准化流程整合多源测序数据,解决宏基因组与16S数据可比性难题,为跨平台微生物研究提供范本;
临床价值:模型在中国人群验证中表现优异(80.66%),且仅需检测10个物种,大幅降低临床推广成本;
机制启示:发现Oscilibacter massiliensis等新型标志物,并证实Akkermansia muciniphila通过TLR2-TLR1通路调控免疫(图3L),为益生菌干预提供新靶点。
未来需在更多族裔队列验证模型普适性,并探索微生物-宿主基因互作机制。研究团队已开源代码(GitHub: XGB-IBD10),推动微生物组诊断工具临床转化。
图表引用说明
• 图1G:

• 图3K:

• 图4A/C:

• 图6D-G:

• 图7C-D:

生物通微信公众号
知名企业招聘