《PLOS One》:Interpretable ensemble machine learning framework for cardiovascular disease prediction using EMR data and large language models in Ethiopia
编辑推荐:
本研究提出一种结合集成机器学习(XGBoost)与可解释人工智能(SHAP)的心血管疾病(CVD)预测框架,创新性地引入大语言模型(Gemini)将SHAP输出转化为临床可读的叙事解释。该模型在埃塞俄比亚20,960例电子病历(EMR)数据中达到99%的准确率,显著提升CVD早期筛查效率,为资源受限地区提供透明、可操作的临床决策支持工具。
1. 引言
心血管疾病(CVD)是全球致残与致死的主要病因,每年导致约1790万人死亡,占全球总死亡人数的32%。在埃塞俄比亚,城市化进程、人口结构变迁及生活方式转变加剧了CVD负担,尤其在亚的斯亚贝巴等城市表现显著。然而,诊断基础设施不足、就诊延迟及筛查项目缺失等问题严重制约早期干预。机器学习(ML)技术虽在CVD风险预测中展现出潜力,但其“黑箱”特性阻碍了临床实践中的应用。本研究通过整合SHAP可解释性分析与大语言模型(LLM)生成自然语言解释,构建了一种面向埃塞俄比亚医疗场景的透明化CVD预测框架。
2. 相关研究
传统统计模型(如逻辑回归)在捕捉临床数据复杂非线性关系时存在局限,而XGBoost等集成学习方法凭借高维数据处理优势表现出更优性能。可解释人工智能(XAI)技术中,SHAP能够量化特征贡献度,增强临床信任度。近期研究尝试将LLM与预测模型结合,通过生成叙事解释提升模型透明度,但针对低收入国家医疗环境的研究仍属空白。埃塞俄比亚的电子病历(EMR)数据存在不完整、结构异质等挑战,亟需开发本地化适配的预测工具。
3. 方法
3.1 研究设计与数据来源
研究采用回顾性设计,基于亚的斯亚贝巴卫生局下属公立医院的20,960例匿名EMR数据。数据集包含人口统计学指标、生命体征、系统化临床评估、诊断信息及干预计划,结局变量为CVD存在(1)或缺失(0)的二元分类。
3.2 临床定义与数据预处理
CVD依据ICD-10标准由临床医生诊断记录。肌肉骨骼系统(MSS)、神经系统(NEURO)等特征源自EMR中的系统回顾与体格检查模块。预处理包括:连续变量缺失值采用中位数填补,分类变量缺失设为“未记录”类别;通过IQR封顶法处理异常值;分类变量经独热编码后从29个特征扩展至93,884维,再通过罕见类别(频率<1%)合并降维至489维。
3.3 特征选择与模型训练
特征筛选融合临床专家知识(如年龄、HPI、MSS)与统计验证(卡方检验、t检验、相关性分析)。XGBoost分类器超参数经优化设置为学习率0.1、最大树深度6、L2正则化λ=1,采用80%训练集与10折交叉验证。
3.4 可解释性层
SHAP分析全局与局部特征贡献,Gemini LLM将数值结果转化为自然语言叙述,例如:“通用治疗计划(General Plan)贡献52.6%预测权重,结合现病史(HPI)共解释68%风险差异”。
4. 结果
4.1 模型性能
XGBoost模型准确率达0.99,精确度与召回率分别为0.99和0.98,F1分数0.99。混淆矩阵显示真阴性2034例、真阳性2103例,误分类极低。
4.2 特征重要性
SHAP分析识别关键预测因子:通用治疗计划(general_plan)、现病史(HPI)、肌肉骨骼系统(MSS)及诊断信息。独热编码后,“general_plan_Other”类别呈现高变异性,而“FollowUp”稳定指向CVD高风险。
4.3 叙事解释
LLM总结特征贡献排名,提示需审计通用治疗计划潜在数据泄漏风险,同时强调标准化临床文档对提升模型可靠性的重要性。
5. 讨论与展望
本框架为资源受限环境提供了兼顾准确性与透明度的CVD预测方案。未来需拓展外部验证、整合非结构化数据(如影像报告),并针对埃塞俄比亚语言环境优化LLM生成内容。通过嵌入移动健康(mHealth)平台,该模型有望实现临床场景的规模化应用。
6. 结论
研究证实了融合XGBoost、SHAP与LLM的框架在埃塞俄比亚CVD预测中的有效性,其可解释性设计为临床采纳奠定基础,也为低收入国家AI辅助医疗提供了范式参考。