机器学习模型预测2型糖尿病患者心血管疾病风险:基于Boruta特征选择与XGBoost算法的开发与验证

【字体: 时间:2025年09月26日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对2型糖尿病(T2DM)患者心血管疾病(CVD)风险预测的临床需求,开发了基于Boruta特征选择算法与机器学习模型的预测平台。研究人员利用美国国家健康与营养调查(NHANES)1999-2018年数据,通过比较6种机器学习算法,发现XGBoost模型表现最佳(测试集AUC=0.72),并筛选出年龄、高血压、慢性肾病等关键风险因素。研究成果通过SHAP可解释性分析和在线预测平台(Shinyapps.io)实现临床转化,为T2DM患者CVD风险精准防控提供新工具。

  
心血管疾病(CVD)已成为2型糖尿病(T2DM)患者致残和致死的主要原因,其发病风险比非糖尿病人群高出2-4倍。这种风险增加与T2DM患者复杂的代谢异常密切相关,包括胰岛素抵抗、高血糖、血脂异常、高血压和慢性炎症状态等病理生理机制。尽管存在 Framingham 风险评分、UKPDS 风险评分等传统评估工具,但这些基于线性关系的模型难以捕捉T2DM患者CVD风险的多因素交互作用,且预测准确性有限。
临床实践中,医生迫切需要能够整合多维度临床指标、准确识别高风险个体的预测工具。传统评分系统仅纳入年龄、性别、血压和胆固醇水平等有限变量,无法全面反映T2DM患者的整体风险状况。随着人工智能技术的快速发展,机器学习(ML)方法为改进CVD风险预测提供了新机遇,但其在医学应用仍面临过度拟合、类别不平衡和模型可解释性等挑战。
为此,苏州大学附属第四医院徐春明团队联合国内多家医疗机构,开展了一项基于机器学习的大规模研究。研究人员利用美国国家健康与营养调查(NHANES)1999-2018年数据,开发并验证了针对T2DM患者的CVD风险预测模型。该研究创新性地采用Boruta特征选择算法处理高维临床数据,并系统比较了多层感知器(MLP)、轻量梯度提升机(LightGBM)、决策树(DT)、极端梯度提升(XGBoost)、逻辑回归(LR)和K近邻(KNN)六种机器学习算法的性能。研究成果发表于《Scientific Reports》期刊,为临床医生提供了基于Web的预测工具,推动了个体化治疗决策的发展。
本研究主要采用以下关键技术方法:基于NHANES数据库的4015例T2DM患者数据,使用Boruta算法进行特征选择,采用SMOTE技术处理类别不平衡问题,通过10折交叉验证优化XGBoost等6种机器学习模型,利用SHAP方法实现模型可解释性分析,最后通过Shinyapps.io平台部署在线预测工具。

数据来源与研究人群

研究人员从NHANES数据库中筛选了1999-2018年间9,038名18岁及以上T2DM患者,经过严格排除标准(缺失心血管疾病数据、人口学信息、临床指标等),最终纳入4,015名参与者。T2DM诊断采用国际标准:空腹血糖≥7.0 mmol/L、糖化血红蛋白(HbA1c)≥6.5%或正在使用降糖药物。CVD诊断通过标准化医学问卷确定,包括冠心病、心力衰竭、心绞痛、心肌梗死或卒中。
研究收集了多维度协变量:人口统计学特征(年龄、性别、种族、教育背景、婚姻状况)、社会经济指标(家庭收入贫困比PIR)、临床并发症(高血压、慢性阻塞性肺疾病COPD、慢性肾病CKD)、生活方式(吸烟、饮酒习惯)以及实验室指标(估计肾小球滤过率eGFR、腰围WC、血脂谱、肝功能酶学等)。连续变量缺失值采用链式方程多重插补(MICE)处理,确保数据完整性。

Boruta算法筛选CVD风险因素

通过Boruta特征选择算法,从32个候选因素中确定了22个与CVD风险显著相关的特征。该算法基于随机森林原理,通过将原始特征与随机生成的阴影特征迭代比较,有效识别关键变量并去除冗余噪声。
结果显示,年龄、高血压、CKD、吸烟和饮酒等因素位列前茅,而体重指数(BMI)等因素被判定为不重要。这一发现与临床认知高度一致,证实了算法在识别生物医学标志物方面的有效性。

参与者基线特征

4,015名参与者中,999人(24.9%)患有CVD。CVD组平均年龄66.92岁显著高于非CVD组的56.97岁(P<0.0001)。肾功能指标显示明显差异:CVD组肌酐100.34μmol/L vs 非CVD组80.57μmol/L;eGFR值71.12 vs 88.01(P<0.0001)。高血压(83.48% vs 67.34%)和CKD(56.66% vs 35.05%)在CVD组患病率显著更高。人口学因素中,性别、种族和婚姻状态均与心血管健康相关(P<0.05),但BMI无显著差异(P=0.45)。吸烟和饮酒习惯两组间也存在显著差异(P<0.0001)。

机器学习模型比较

六种机器学习模型的表现评估显示:KNN算法在训练集表现完美(AUC=1.00),但测试集性能大幅下降(AUC=0.64),表明严重过拟合。XGBoost模型表现出最佳泛化能力:训练集AUC=0.75,测试集AUC=0.72,性能下降幅度最小。MLP模型测试集AUC为0.74,但其他指标略逊于XGBoost。
决策曲线分析(DCA)显示,XGBoost模型在10%-40%阈值范围内具有最高净收益,这与T2DM患者CVD风险管理的临床决策阈值高度吻合。校准曲线表明,XGBoost预测概率与实际风险在中等风险范围(20%-60%)高度一致,确保临床应用的可靠性。

机器学习模型解释

SHAP分析揭示了各特征对预测结果的影响方向和程度。年龄是最重要的预测变量,SHAP值最高。高血压、CKD、吸烟和饮酒等因素均显示正向影响,即增加CVD风险。
个体水平的力量图(Force Plot)提供了个性化风险解释。如图6A所示,一名CVD患者的预测概率为61.9%,主要风险贡献来自CKD(+0.0457)、既往吸烟(+0.0526)和较低总胆固醇(+0.0525)。图6B显示一名非CVD患者的预测概率为36.2%,风险因素与保护因素相对平衡。

网络计算器实现

基于SHAP分析确定的前10个重要变量,研究团队开发了可部署的网络预测平台(https://cvdshiny.shinyapps.io/shiny_cls2_1model_fastshap/)。该平台提供用户友好界面,临床医生输入患者临床特征数据即可快速获取CVD风险预测结果。
平台集成了使用指南和免责声明,强调预测结果仅用于研究和教育参考,不能替代临床判断。这一工具极大方便了临床工作者进行快速风险评估和个体化干预方案制定。
本研究通过大规模流行病学数据和先进机器学习算法,成功开发并验证了T2DM患者CVD风险预测模型。XGBoost模型表现出最佳预测性能和临床适用性,测试集AUC达到0.72,虽未达到优秀水平,但在复杂疾病预测中具有临床意义的价值。研究证实,年龄、肾功能指标(肌酐、eGFR)、高血压和CKD是T2DM患者CVD最重要的预测因素,这一发现与病理生理机制高度吻合。
Boruta特征选择算法有效识别了22个关键风险因素,避免了传统方法可能遗漏的重要变量。SHAP解释性分析不仅增强了模型透明度,还为临床决策提供了科学依据。在线预测平台的开发实现了研究成果向临床实践的快速转化,有助于医生早期识别高风险患者并制定个体化干预措施。
研究的局限性包括:CVD结局基于自我报告可能存在误分类偏差、样本主要来自美国人群限制外推性、横断面设计无法确立因果关系、缺乏外部验证等。未来研究需要在多中心前瞻性队列中验证模型性能,并整合更多生物标志物和遗传信息提升预测精度。
总之,这项研究为T2DM患者CVD风险防控提供了基于人工智能的创新工具,推动了精准医疗在糖尿病管理中的应用。通过早期风险识别和针对性干预,有望降低T2DM患者心血管并发症负担,改善长期预后。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号