基于EMR数据与LLM的可解释集成学习模型在埃塞俄比亚心血管疾病预测中的应用研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《PLOS One》：Interpretable ensemble machine learning framework for cardiovascular disease prediction using EMR data and large language models in Ethiopia

【字体：大中小】 时间：2026年02月10日 来源：PLOS One 2.6

编辑推荐：

　　本研究提出一种结合集成机器学习（XGBoost）与可解释人工智能（SHAP）的心血管疾病（CVD）预测框架，创新性地引入大语言模型（Gemini）将SHAP输出转化为临床可读的叙事解释。该模型在埃塞俄比亚20,960例电子病历（EMR）数据中达到99%的准确率，显著提升CVD早期筛查效率，为资源受限地区提供透明、可操作的临床决策支持工具。

1. 引言

心血管疾病（CVD）是全球致残与致死的主要病因，每年导致约1790万人死亡，占全球总死亡人数的32%。在埃塞俄比亚，城市化进程、人口结构变迁及生活方式转变加剧了CVD负担，尤其在亚的斯亚贝巴等城市表现显著。然而，诊断基础设施不足、就诊延迟及筛查项目缺失等问题严重制约早期干预。机器学习（ML）技术虽在CVD风险预测中展现出潜力，但其“黑箱”特性阻碍了临床实践中的应用。本研究通过整合SHAP可解释性分析与大语言模型（LLM）生成自然语言解释，构建了一种面向埃塞俄比亚医疗场景的透明化CVD预测框架。

2. 相关研究

传统统计模型（如逻辑回归）在捕捉临床数据复杂非线性关系时存在局限，而XGBoost等集成学习方法凭借高维数据处理优势表现出更优性能。可解释人工智能（XAI）技术中，SHAP能够量化特征贡献度，增强临床信任度。近期研究尝试将LLM与预测模型结合，通过生成叙事解释提升模型透明度，但针对低收入国家医疗环境的研究仍属空白。埃塞俄比亚的电子病历（EMR）数据存在不完整、结构异质等挑战，亟需开发本地化适配的预测工具。

3. 方法

3.1 研究设计与数据来源

研究采用回顾性设计，基于亚的斯亚贝巴卫生局下属公立医院的20,960例匿名EMR数据。数据集包含人口统计学指标、生命体征、系统化临床评估、诊断信息及干预计划，结局变量为CVD存在（1）或缺失（0）的二元分类。

3.2 临床定义与数据预处理

CVD依据ICD-10标准由临床医生诊断记录。肌肉骨骼系统（MSS）、神经系统（NEURO）等特征源自EMR中的系统回顾与体格检查模块。预处理包括：连续变量缺失值采用中位数填补，分类变量缺失设为“未记录”类别；通过IQR封顶法处理异常值；分类变量经独热编码后从29个特征扩展至93,884维，再通过罕见类别（频率<1%）合并降维至489维。

3.3 特征选择与模型训练

特征筛选融合临床专家知识（如年龄、HPI、MSS）与统计验证（卡方检验、t检验、相关性分析）。XGBoost分类器超参数经优化设置为学习率0.1、最大树深度6、L2正则化λ=1，采用80%训练集与10折交叉验证。

3.4 可解释性层

SHAP分析全局与局部特征贡献，Gemini LLM将数值结果转化为自然语言叙述，例如：“通用治疗计划（General Plan）贡献52.6%预测权重，结合现病史（HPI）共解释68%风险差异”。

4. 结果

4.1 模型性能

XGBoost模型准确率达0.99，精确度与召回率分别为0.99和0.98，F1分数0.99。混淆矩阵显示真阴性2034例、真阳性2103例，误分类极低。

4.2 特征重要性

SHAP分析识别关键预测因子：通用治疗计划（general_plan）、现病史（HPI）、肌肉骨骼系统（MSS）及诊断信息。独热编码后，“general_plan_Other”类别呈现高变异性，而“FollowUp”稳定指向CVD高风险。

4.3 叙事解释

LLM总结特征贡献排名，提示需审计通用治疗计划潜在数据泄漏风险，同时强调标准化临床文档对提升模型可靠性的重要性。

5. 讨论与展望

本框架为资源受限环境提供了兼顾准确性与透明度的CVD预测方案。未来需拓展外部验证、整合非结构化数据（如影像报告），并针对埃塞俄比亚语言环境优化LLM生成内容。通过嵌入移动健康（mHealth）平台，该模型有望实现临床场景的规模化应用。

6. 结论

研究证实了融合XGBoost、SHAP与LLM的框架在埃塞俄比亚CVD预测中的有效性，其可解释性设计为临床采纳奠定基础，也为低收入国家AI辅助医疗提供了范式参考。

联系信箱：

粤ICP备09063491号

热点排行