基于可解释机器学习的原发性高血压患者心血管疾病预测:算法比较与SHAP分析
《Archives of Cardiovascular Diseases》:Explainable machine learning-based cardiovascular disease prediction in patients with hypertension: Algorithm comparison and SHapley Additive exPlanations (SHAP) analysis
【字体:
大
中
小
】
时间:2025年10月30日
来源:Archives of Cardiovascular Diseases 2.2
编辑推荐:
本研究针对高血压患者心血管疾病(CVD)风险预测的临床需求,通过整合LASSO、Boruta和RFE算法筛选关键变量,并构建了基于机器学习的预测模型。结果表明,Balanced Bagging Classifier模型性能最优,SHAP分析揭示了中性粒细胞-淋巴细胞比值(NLR)、腰围身高比等关键特征的重要性。该模型兼具高精度与强可解释性,为高血压人群的CVD早期筛查和临床决策提供了实用工具。
心血管疾病(Cardiovascular Disease, CVD)是全球范围内导致死亡和残疾的主要原因之一,而在高血压患者群体中,其发病风险和危害性尤为突出。高血压如同一颗潜伏的“定时炸弹”,显著增加了心肌梗死、脑卒中等严重心血管事件的发生概率。因此,对高血压患者进行准确的心血管疾病风险预测,从而实现早期预警和干预,是临床实践中的一项紧迫任务。传统的统计模型虽然应用广泛,但在处理复杂、高维的医疗数据时,其预测精度和稳定性有时难以满足精准医疗的需求。此外,这些模型往往像“黑箱”一样,难以解释其内部的决策逻辑,使得临床医生对其结果持谨慎态度,这在一定程度上限制了其临床应用。那么,能否开发出一种既拥有高预测精度,又能清晰解释其预测依据的工具呢?这正是王萌研究员及其团队在发表于《Archives of Cardiovascular Diseases》上的研究试图解决的问题。
为了回答上述问题,研究人员开展了一项聚焦于开发可解释机器学习模型的研究。本研究主要利用了美国国家健康与营养调查(National Health and Nutrition Examination Survey, NHANES)在2009年至2018年间收集的数据。在技术方法上,研究整合了三种特征选择方法——最小绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator, LASSO)、Boruta算法和递归特征消除(Recursive Feature Elimination, RFE)——来筛选与心血管疾病风险最相关的关键变量。随后,研究采用了四种不同的机器学习算法来构建预测模型,并通过10折交叉验证和独立测试集来全面评估模型的性能。最后,为了提升模型的可解释性,研究引入了沙普利加法解释(SHapley Additive exPlanations, SHAP)方法,用以分析各个特征对模型预测结果的贡献度,从而揭示其内在的决策机制。
本研究最终纳入了2781名参与者。通过综合运用LASSO、Boruta和RFE三种特征筛选算法,研究人员从大量候选变量中精准地筛选出了八个与高血压患者发生心血管疾病风险最相关的关键变量。这八个变量为后续构建高精度预测模型奠定了坚实的基础。
研究人员构建了多种机器学习模型并进行性能比较。综合评估结果表明,平衡袋装分类器(Balanced Bagging Classifier)模型在所有测试中表现最为出色。该模型在区分高血压患者是否会发生心血管疾病方面展现了最高的准确性和稳定性,其性能优于其他对比模型,证明了该算法在此特定应用场景下的优势。
应用SHAP方法对最佳模型进行解读是本研究的一大亮点。分析结果清晰地展示了各个特征对预测结果的影响程度和方向。按重要性降序排列,排名前八的特征依次为:中性粒细胞-淋巴细胞比值(Neutrophil-lymphocyte ratio, NLR)、腰围身高比(Waist-to-height ratio)、年龄、高密度脂蛋白胆固醇(High-density lipoprotein cholesterol, HDL-C)、低密度脂蛋白胆固醇(Low-density lipoprotein cholesterol, LDL-C)、肾脏疾病(Kidney disease)史、睡眠障碍(Sleep disturbance)和糖尿病(Diabetes)史。SHAP分析不仅给出了特征的全局重要性排序,还能针对单个患者的预测结果提供局部解释,阐明每个特征是如何推动模型做出特定风险判断的。
本研究的核心结论是成功开发并验证了一个基于机器学习的高血压患者心血管疾病风险预测模型。该模型不仅表现出优异的预测效能和良好的泛化能力,更重要的是,通过SHAP分析赋予了模型高度的可解释性,使其从“黑箱”转变为“玻璃箱”。这意味着临床医生在利用该模型进行风险评估时,能够清楚地了解是哪些因素(如升高的NLR、较大的腰围身高比等)导致了高风险判定,从而增强了结果的可信度和临床实用性。
这项研究的意义重大。它为解决临床高风险人群的早期筛查难题提供了一个强大且透明的辅助决策工具。模型所识别出的关键风险因素,如反映炎症水平的NLR和反映中心性肥胖的腰围身高比,也为深入理解高血压患者并发心血管疾病的病理生理机制提供了新的线索。尽管该模型基于NHANES大型队列数据构建,显示出良好的应用前景,但研究者也指出,其在不同人群和临床场景中的适用性仍需在未来研究中进一步验证。展望未来,这种将先进机器学习技术与可解释性人工智能(Explainable AI, XAI)方法相结合的策略,有望在更广泛的疾病预测和健康管理领域发挥重要作用,推动精准医疗向更加智能化、透明化的方向发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号