利用白细胞亚群对炎症性肠病活动进行机器学习分类
《BMJ Open Gastroenterology》:Machine learning classification of inflammatory bowel disease activity using white blood cell subsets
【字体:
大
中
小
】
时间:2025年12月11日
来源:BMJ Open Gastroenterology 2.9
编辑推荐:
机器学习模型通过分析中性粒细胞、C反应蛋白和白蛋白等常规血液指标,可有效分类炎症性肠病(IBD)活动状态,ROC-AUC达0.882。研究采用XGBoost等四类模型,验证了多变量分析在疾病监测中的优势,为减少侵入性检查提供新思路。
该研究针对炎症性肠病(IBD)活动度评估的临床痛点,提出通过机器学习(ML)整合常规血液检测指标构建分类模型。研究基于加拿大金斯顿健康科学中心108名IBD患者的1458次血液检测数据,采用多模型对比和特征分析的方法,验证了ML技术在IBD活动度评估中的可行性。
一、研究背景与核心问题
IBD作为慢性自身免疫性疾病,其活动度评估长期面临两大挑战:首先,现有生物标志物如粪便钙卫蛋白检测存在时效性差的问题,而血液检测的CRP等指标又缺乏特异性。其次,传统评估高度依赖医生的主观判断(PGAS评分),难以实现动态监测。研究创新性地将常规血液检测中的白细胞亚群、炎症指标等12项常规指标作为输入,探索ML模型在疾病活动度分类中的价值。
二、研究方法与技术路线
1. **数据构建**:纳入2007-2025年间符合标准的IBD患者血液检测数据,排除肿瘤等干扰因素,最终保留1458份有效样本。数据预处理包括:
- 剔除缺失率>43%的粪便钙卫蛋白、血色素蛋白等指标
- 对偏态分布数据实施平方根或对数变换
- 使用多变量链式方程法填补剩余缺失值
- 建立标准化数值体系(Z-score)
2. **模型构建**:
- 筛选四类ML模型:随机森林(RF)、支持向量机(SVM)、多层感知器(MLP)、极端梯度提升树(XGBoost)
- 采用分层抽样法(80:20)划分训练集与测试集
- 通过10折交叉验证优化超参数(如RF的mtry、XGBoost的tree_depth等)
3. **特征工程**:
- 基于随机森林的随机特征重要性排序,保留20个核心变量
- 通过SHAP值分析揭示特征贡献度(CRP>中性粒细胞>血色素蛋白等)
三、关键研究发现
1. **模型性能**:
- XGBoost模型在测试集上表现最优,ROC-AUC达0.882,F1分数0.859
- RF模型在召回率(0.918)和AUC(0.898)上更具优势
- 四类模型均优于单一生物标志物的诊断效能(最高AUC为0.73)
2. **核心生物标志物**:
- 动态变化的指标:中性粒细胞绝对值(敏感度最高达89%)、CRP(特异性达85%)、血色素蛋白(反映贫血程度)
- 稳态指标:血小板计数(与黏膜炎症程度正相关)、单核细胞(与肠道炎症负荷相关)
3. **药物影响分析**:
- 糖皮质激素(如泼尼松)显著影响中性粒细胞(效应量1.32)、嗜酸性粒细胞(效应量1.24)
- 羟基脲(硫唑嘌呤)导致全血细胞减少(中性粒细胞下降21%,血红蛋白降低18%)
- 免疫球蛋白(如阿达木单抗)对血细胞参数影响较小(p>0.05)
四、临床意义与改进方向
1. **诊断价值**:
- 构建的XGBoost模型已接近内窥镜检查的敏感性(0.83)
- 可替代传统影像学检查(如MRE特异性仅41%)
- 血液检测作为无创替代方案,单次检测成本可降低至$2.5(传统肠镜约$300)
2. **监测优化**:
- 建立3-6个月动态监测模型,准确率提升至78%
- 发现血小板的"波动阈值"(>450×10?/L提示活动期)
- 嗜酸性粒细胞>300×10?/L与黏膜溃疡形成显著相关(OR=2.33)
3. **研究局限**:
- 依赖PGAS主观评估(金标准),存在评估滞后(平均间隔2.3周)
- 儿童样本占比38%,但特定指标(如CRP峰值)与成人存在差异
- 药物效应分析未考虑剂量-效应关系(需补充剂量分组研究)
五、应用前景与政策建议
1. **临床转化路径**:
- 开发便携式血液分析仪(检测成本<$1/次)
- 构建手机APP实现实时数据采集与预警(需配套验证研究)
- 建立基于ML的预警系统(提前14天预测活动度变化)
2. **政策建议**:
- 将ML评估纳入IBD患者常规随访(替代部分肠镜检查)
- 制定生物标志物动态监测标准(如CRP阈值梯度)
- 建立区域性生物数据库(需跨机构数据共享机制)
3. **未来研究方向**:
- 多组学整合(血液+粪便+影像)
- 药物基因组学关联分析(如TNF-α通路)
- 可解释性AI模型开发(需可视化特征贡献度)
该研究为IBD管理提供了创新工具,其核心价值在于将传统医学的"经验性判断"转化为可量化的生物标记物组合。通过机器学习揭示的复杂非线性关系(如CRP与中性粒细胞呈J型曲线关联),为精准医疗提供了新思路。建议后续研究应着重解决数据时效性(建立实时更新算法)和个体异质性(开发患者特异性模型)两大关键问题。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号