基于SHAP值与MARS模型的糖尿病预测可解释性机器学习比较研究

【字体: 时间:2025年05月27日 来源:Healthcare Analytics CS4.4

编辑推荐:

  本研究针对糖尿病预测模型的可解释性难题,采用SHAP(Shapley Additive exPlanations)值和MARS(Multivariate Adaptive Regression Splines)模型,对CDC大型数据集(70,692样本)进行多维度分析。通过对比6种传统机器学习模型,揭示了BMI、年龄、血压等关键特征对糖尿病风险的贡献度,模型准确率达74.9%。该研究为临床决策提供了透明化工具,推动XAI(可解释人工智能)在慢性病管理中的应用。

  

糖尿病是全球公共卫生的重大挑战,据世界卫生组织统计,2022年糖尿病患者已达8.3亿人,其中14%为成年人。尽管机器学习(ML)在疾病预测领域取得进展,但传统"黑箱"模型缺乏临床可解释性,限制了其在医疗决策中的应用。如何让医生和患者理解模型预测逻辑,成为亟待解决的关键问题。

为应对这一挑战,研究人员利用美国CDC(疾病控制与预防中心)提供的70,692例糖尿病相关数据集,开展了一项开创性研究。该数据集包含BMI、血压、胆固醇等21项临床及社会经济特征。研究团队创新性地将多变量自适应回归样条(MARS)模型与SHAP(沙普利加性解释)值结合,系统比较了包括逻辑回归(LR)、随机森林(RF)等6种ML模型的性能,最终成果发表于《Healthcare Analytics》。

研究采用80%训练集和20%测试集的划分策略,通过特征归一化(-1至1范围)处理数据。关键技术包括:1) MARS模型构建(含1阶和2阶方程);2) SHAP值计算与可视化;3) 传统ML模型(LR/DT/RF/SVM/KNN/GBM)性能对比;4) 特征重要性排序分析。所有模型均通过准确率、精确度等指标验证。

研究结果部分,MARS模型表现尤为突出:

  1. 模型性能对比:MARS degree 1与degree 2模型均达到74.8%准确率,优于决策树(DT)的65.8%,与梯度提升机(GBM)的74.9%相当。
  2. 关键特征识别:通过MARS方程解析,发现"总体健康评分(GenHlth)"、"高血压(HighBP)"、"年龄"、"BMI"和"高胆固醇(HighChol)"为前五大预测因子。例如,BMI的阈值效应显示:当实际BMI>35(标化值0)时,糖尿病风险输出值跃升至0.89。
  3. SHAP解释性验证:瀑布图直观展示个体预测逻辑,如某病例中"优秀健康状态"(GenHlth=-1)贡献-0.2 SHAP值,而"高收入"(Income=+1)因负相关降低风险。
  4. 临床一致性发现:模型证实已知医学规律,如适度饮酒(HvyAlcoholConsump=1)使风险降低17%(0.64→0.51),与流行病学研究相符。

讨论部分强调,该研究首次将MARS模型的可解释方程与SHAP的局部解释能力结合,突破传统ML模型的透明度瓶颈。例如,MARS degree 2方程中"Age*BMI"交互项(系数0.2471)量化了年龄与肥胖的协同效应,为个性化干预提供依据。值得注意的是,模型发现"自评健康"的主观指标预测力最强,这提示患者主观感受可能整合了未测量的生物学因素。

这项研究的临床意义在于:1) 为糖尿病筛查提供可视化决策工具;2) 证实社会经济因素(如低收入)与疾病的显著关联;3) 建立可解释AI(XAI)在慢性病管理的应用范式。未来工作将扩展至其他代谢性疾病,并整合更多生物标志物以提升预测精度。

(注:全文数据均源自原文,专业术语如Multivariate Adaptive Regression Splines(MARS)首次出现时均标注英文全称,模型性能指标如AUC-ROC等保留原文格式,特征名称如GenHlth严格遵循原文大小写。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号