基于集成机器学习与过采样技术的心血管风险预测模型研究:针对厄瓜多尔人群的创新分析

《Scientific Reports》:Cardiovascular risk prediction via ensemble machine learning and oversampling methods

【字体: 时间:2025年12月03日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对心血管疾病(CVD)风险预测中数据集不平衡和区域特异性数据缺乏的问题,研究人员开展了基于集成机器学习和过采样方法的主题研究。通过分析709名厄瓜多尔人的真实临床数据,应用八种树基算法和两种平衡技术(SMOTE和ROS-SMOTE),发现梯度提升(GB)结合混合ROS-SMOTE方法表现最佳(准确率0.87,F1-score 0.78)。该研究为拉丁美洲人群提供了首个区域性CVD风险预测模型,凸显了人工智能在早期心血管风险识别中的临床应用潜力。

  
心血管疾病(CVD)是全球死亡的主要原因之一,每年导致数百万人死亡。在厄瓜多尔等中低收入国家,CVD相关死亡率占全球80%以上,但大多数现有预测模型基于欧美人群数据,缺乏区域特异性。传统风险评分如Framingham风险评分和Pooled Cohort Equations (PCE)在应用于拉丁美洲人群时存在局限性,且大多数研究使用合成数据或二进制分类,无法准确反映当地人群的多类别风险特征。
更严峻的是,真实世界医疗数据普遍存在类别不平衡问题——高风险患者数量远少于低风险群体,导致机器学习模型容易偏向多数类。此前研究虽应用了支持向量机(SVM)、随机森林(RF)等算法,但缺乏对树基集成算法的系统比较,且鲜少针对拉丁美洲人群开发多类别风险预测模型。
为此,Ruth Reategui等人发表在《Scientific Reports》的研究填补了这一空白。团队收集了厄瓜多尔洛哈地区709名40-75岁工作者的真实临床数据,包含人口统计学、生活方式指标和临床测量值等21个特征。研究创新性地将问题构建为四分类任务(低、中、高、极高风险),并系统比较了八种树基算法(决策树DT、随机森林RF、梯度提升GB、极端梯度提升XGBoost、轻量梯度提升机LightGBM、极端随机树ET、自适应提升AdaBoost和装袋法Bagging)与两种过采样技术(SMOTE和混合ROS-SMOTE)的组合效果。
关键技术方法包括:使用pandas和scikit-learn库进行数据预处理,消除高度相关变量以减少多重共线性;采用70%-30%的数据划分策略;通过SMOTE合成少数类样本和ROS-SMOTE混合方法解决类别不平衡;利用网格搜索(GridSearch)优化超参数;使用准确率、精确度、召回率和F1-score等指标进行模型评估。

数据预处理与特征选择

研究团队从1,388名初始参与者中筛选出709条有效记录,剔除了缺失值和重复数据。为降低过拟合风险,通过相关性分析移除了体重、身高、体重指数(BMI)等5个高冗余特征,最终保留21个关键变量,包括年龄、性别、收缩压(TASist)、舒张压(TADiast)、吸烟状况(FUMA)、体脂百分比(PGcorp)等。被预测变量RIE_CARD_A包含四个风险等级,其中高风险(类别2)和极高风险(类别3)的样本数仅为59和8,呈现出显著的不平衡性。

类别平衡策略比较

研究比较了两种平衡技术的效果:单纯SMOTE方法直接将少数类样本扩充至与多数类持平;而混合ROS-SMOTE策略先通过随机过采样(ROS)增加高风险类别的真实样本数量,再应用SMOTE进行平衡。结果显示,混合策略在保持样本多样性的同时减少了噪声引入,为后续建模提供了更优质的数据基础。

算法性能评估

Balance Technique
Algorithms
Accuracy
Precision
Recall
F1-score
SMOTE
DT
0.58
0.35
0.38
0.36
RF
0.76
0.54
0.67
0.58
GB
0.84
0.81
0.74
0.75
XGBoost
0.82
0.57
0.59
0.58
LightGBM
0.81
0.54
0.59
0.56
ET
0.68
0.51
0.61
0.54
AB
0.72
0.57
0.67
0.58
BG
0.82
0.54
0.57
0.55
ROS-SMOTE
DT
0.75
0.59
0.6
0.6
RF
0.78
0.58
0.67
0.61
GB
0.87
0.87
0.73
0.78
XGBoost
0.85
0.62
0.59
0.60
LightGBM
0.85
0.65
0.59
0.61
ET
0.64
0.43
0.55
0.45
AB
0.71
0.56
0.63
0.55
BG
0.85
0.88
0.7
0.76
梯度提升(GB)算法在两种平衡策略下均表现最佳,特别是结合ROS-SMOTE时,准确率达到0.87,精确度0.87,F1-score 0.78。其成功归因于序列化误差校正机制和内置正则化策略(如收缩率、子采样和树深度控制),有效抑制过拟合并提升泛化能力。

混淆矩阵分析

详细混淆矩阵分析显示,GB+ROS-SMOTE对低风险(类别0)和中风险(类别1)的分类性能更优:低风险类别正确分类数从122提升至126,中风险类别从40提升至46。虽然单纯SMOTE对高风险(类别2)的召回率更高(0.83对0.67),但混合策略在整体平衡性上更具优势。

特征重要性解析

特征重要性分析揭示体脂百分比(PGcorp)、年龄(EDAD)、收缩压(TASist)为前三大预测因子,其次为吸烟状况(FUMA)、腹围(PER_ABD)和性别(SEXO)。这表明人体测量学和血压指标在CVD风险预测中占据核心地位,为临床干预提供了明确靶点。
研究结论强调,集成机器学习结合过采样技术能有效解决医疗数据中的类别不平衡问题,GB算法在CVD多类别风险预测中展现卓越性能。该模型首次针对厄瓜多尔人群开发,弥补了拉丁美洲地区特异性预测工具的空白。尽管样本量和自报告数据存在局限性,但工作为AI辅助心血管预防医学提供了新范式。未来将通过SHAP/LIME等可解释性技术深化特征分析,并扩大样本规模以增强模型泛化能力,最终推动个性化风险评估在临床实践中的应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号