基于多中心回顾性研究的可解释性机器学习模型在早期慢性肾脏病预测中的验证与应用

【字体: 时间:2025年06月12日 来源:eClinicalMedicine 9.6

编辑推荐:

  本研究针对早期慢性肾脏病(CKD)缺乏特异性症状导致诊断延迟的临床难题,开发了基于XGBoost算法的可解释预测模型。研究人员整合11,436例CKD和10,004例健康人群的多中心数据,通过"血常规+尿常规+基本信息"特征组合实现AUC 0.9235(外部验证AUC 0.8962),并构建可视化网络工具。该研究为无糖尿病/高血压人群的早期CKD筛查提供了高性价比解决方案,对延缓疾病进展具有重要临床价值。

  

慢性肾脏病(CKD)已成为全球公共卫生的重大挑战,约10%的成年人深受其害。这种疾病最棘手之处在于早期阶段症状隐匿,等患者出现明显不适时,往往已进展至终末期肾病(ESRD),不得不接受透析或肾移植治疗。更令人担忧的是,传统诊断方法对没有糖尿病、高血压等典型危险因素的人群缺乏敏感性,导致大量潜在患者错失早期干预时机。面对这一临床困境,江苏省中医院、苏州市中西医结合医院和东南大学附属中大医院的研究团队开展了一项开创性研究,他们利用机器学习技术开发出可解释的早期CKD预测工具,相关成果发表在《eClinicalMedicine》上。

研究团队采用多中心回顾性队列设计,收集2021年2月至2024年4月期间三所医院的临床数据。关键技术包括:1) 纳入21,440例样本(11,436例CKD和10,004例对照)构建训练集和内部验证集;2) 应用决策树、随机森林、XGBoost等6种机器学习算法;3) 采用SHAP方法进行特征重要性分析;4) 开发基于Python Flask的网页应用工具。

研究结果显示部分:

患者特征
数据分析显示CKD组与非CKD组在年龄、性别分布及多项检测指标上存在显著差异。CKD组男性比例更高(39.68% vs 27.65%),尿酸水平显著升高(333 vs 284.6 μmol/L),而尿蛋白阳性率差异尤为明显(仅26.77% CKD患者尿蛋白阴性,对照组100%阴性)。

模型开发与比较
在六种机器学习模型中,XGBoost表现最优(AUC 0.9397,F1分数0.8690),显著优于决策树等传统模型。特征组合分析发现"血常规+尿常规+基本信息"组合性价比最高,在保持高准确性的同时降低了检测成本。

最优模型
经过参数调优的XGBoost模型(learning_rate=0.01,max_depth=5等)在测试集上AUC达0.9143,灵敏度76.91%,特异度95.55%。值得注意的是,即使排除价格较高的生化指标,仅用"血常规+尿常规+基本信息"组合仍能达到AUC 0.9235。

模型可解释性
SHAP分析揭示尿蛋白(PRO)和年龄(AGE)是最关键预测因子。瀑布图直观展示了个体化预测中各特征的贡献度,如某高风险患者(预测概率88.24%)的主要风险驱动因素就是显著升高的尿蛋白水平。

外部验证
在包含704例样本的外部验证集中,模型保持优异性能(AUC 0.8962,准确率85.3%),证实其良好的泛化能力。亚组分析显示模型在多数人群中表现稳定,仅在45-60岁小样本亚组(AUC 0.7011)略有下降。

临床应用
团队开发的网络应用可基于用户输入的年龄、性别、血尿常规等18项指标,实时计算CKD风险概率并提供可视化解释报告。

这项研究突破了传统CKD预测模型的局限性,首次针对无糖尿病/高血压人群建立了高精度预测工具。其创新性体现在三方面:一是采用低成本常规检测指标组合,极大提升了基层医疗机构的适用性;二是引入SHAP可解释性框架,使"黑箱"预测转化为透明决策过程;三是通过多中心外部验证确保了模型的普适性。尽管存在回顾性研究的固有局限,但该成果为早期CKD筛查提供了切实可行的解决方案,对实现"早发现、早干预"的慢性病管理目标具有重要价值。随着人工智能与医疗数据的深度融合,这类可解释预测模型有望成为连接临床实践与精准医学的重要纽带。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号