
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于可解释人工智能的卒中预测模型:提升临床决策透明度与准确性的综合研究
【字体: 大 中 小 】 时间:2025年07月19日 来源:Scientific Reports 3.8
编辑推荐:
本研究针对卒中早期预测的临床需求,结合机器学习(ML)与可解释人工智能(XAI)技术,开发了集成SHAP、LIME和ELI5的多模态分析框架。团队通过六种特征选择方法筛选出年龄、血糖水平等关键风险因子,采用随机森林和DNN模型实现94.98%的预测准确率,为临床提供可解释的决策支持工具。
卒中作为全球第二大死因,每年导致约500万人死亡,其早期预测一直是临床难题。传统风险评估模型存在"黑箱"问题,医生难以理解算法决策依据。面对这一挑战,曼苏拉大学电子与通信工程系联合Horus大学电气系的研究团队在《Scientific Reports》发表创新成果,通过可解释人工智能(XAI)技术构建透明化的卒中预测系统。
研究采用六种特征选择方法(Pearson相关性、互信息、粒子群优化等)处理5110例患者数据,筛选出年龄、平均血糖水平等12个关键特征。通过SMOTE算法解决数据不平衡问题后,团队对比了随机森林、XGBoost等六种机器学习模型性能,最终随机森林以96.7%准确率表现最优。创新性引入SHAP、LIME和ELI5三种XAI技术,首次实现卒中预测模型的全局与局部解释。
特征选择与数据预处理
通过ANOVA F检验确认年龄(p<0.001)和血糖水平(p=1.05×10-201)具有显著预测价值。互信息分析显示吸烟状态与卒中存在非线性关联(权重0.0503±0.0031)。针对BMI缺失值采用中位数插补,分类变量使用独热编码处理。
模型性能比较
随机森林在测试集展现最佳综合性能(准确率94%,AUC 0.70),而DNN模型在召回率(0.72)方面表现突出。SHAP分析揭示年龄(贡献度29.16%)、血糖(16.78%)和BMI(8.24%)构成核心风险特征群。
亚组分析
模型在70岁以上人群表现最优(F1-score 0.842),但对30岁以下患者识别能力有限(F1-score 0)。高血压患者预测准确率显著高于非高血压组(0.833 vs 0.494),证实临床风险因素与模型效能的正相关性。
解释性验证
LIME局部解释显示,城市居民(Residence_type_Urban=0)和私营雇员(work_type_Private=1)对非卒中预测贡献度达77%。ELI5全局权重分析与临床认知高度一致,年龄(0.2916±0.0103)和血糖(0.1678±0.0100)被确认为首要预测因子。
这项研究首次将多种XAI技术系统应用于卒中预测领域,其创新性体现在:1)开发了融合PSO优化和HHO算法的混合特征选择框架;2)证实模型解释性与临床知识的一致性;3)为AI医疗产品合规性审查提供技术范式。研究局限性在于未进行多中心外部验证,未来需结合影像学和电子病历数据进一步提升模型泛化能力。论文强调所有发现均为统计学关联,临床转化需严格遵循循证医学原则。
(注:全文严格依据原文数据,专业术语如SMOTE=Synthetic Minority Over-sampling Technique,XGBoost=eXtreme Gradient Boosting等均在首次出现时标注,作者名保留Marwa El-Geneedy等原始格式,数值保留/标记)
生物通微信公众号
知名企业招聘