基于SMOTE过采样与集成学习的糖尿病风险预测模型优化研究:Bagging、Boosting及集成分类器的比较评估

【字体: 时间:2025年06月18日 来源:Informatics in Medicine Unlocked CS9.5

编辑推荐:

  推荐:本研究针对糖尿病风险预测中数据集不平衡、特征选择不足等关键问题,采用SMOTE过采样技术和集成学习方法(包括Bagging、Boosting和CATBoost等),在CDC、ESDRP和PIMA三个数据集上构建预测模型。结果显示,CATBoost在CDC数据集上准确率达91%,集成方法在ESDRP数据集上高达98%,显著提升预测性能,为临床早期干预提供了可靠工具。

  

糖尿病是全球最严重的慢性疾病之一,国际糖尿病联盟(IDF)数据显示,2021年全球有5.37亿成年人患病,预计2045年将增长46%。传统诊断依赖血糖检测,但成本高且难以早期发现。机器学习(ML)为糖尿病风险预测提供了新思路,但现有研究面临数据集不平衡、特征冗余和模型泛化性不足等挑战。

针对这些问题,研究人员在《Informatics in Medicine Unlocked》发表论文,通过整合SMOTE(Synthetic Minority Over-sampling Technique)过采样、加权特征重要性(WFI)分析和集成学习方法,系统评估了Bagging(如随机森林RF)、Boosting(如XGBoost、CATBoost)等算法在CDC糖尿病健康指标数据集、早期糖尿病风险预测(ESDRP)数据集和PIMA印第安人糖尿病数据集上的性能。

关键技术方法包括:1)使用SMOTE处理CDC和ESDRP数据集的类别不平衡问题;2)基于WFI评分筛选关键特征(如CDC数据集中的PhysHlth、BMI等);3)采用GridSearchCV优化超参数,结合5折交叉验证评估模型;4)构建多数投票(Majority Vote)集成模型整合多算法优势。

研究结果:

  1. CDC数据集分析:CATBoost在二分类(非糖尿病vs 2型糖尿病)中准确率达91.97%,优于RF(84.31%)。多分类任务中,RF表现最佳(84.8%),但SMOTE导致召回率提升(95.79%)而精度下降(86.56%)。
  2. ESDRP数据集分析:RF在15个特征下实现100%准确率,集成方法(Majority Vote)在5个特征时仍保持97.65%性能,验证了特征选择的鲁棒性。
  3. PIMA数据集分析:RF在6个特征(葡萄糖、BMI等)下取得82.92%的交叉验证准确率,优于其他算法。

结论与意义:该研究通过集成学习和数据平衡技术,显著提升了糖尿病风险预测的准确性,尤其在CDC这类大规模不平衡数据集上表现突出。CATBoost因擅长处理分类特征成为最优算法,而SMOTE虽改善召回率但需权衡精度损失。成果为临床提供了高效、可解释的预测工具,并为医疗AI模型开发设立了新基准。未来可探索贝叶斯优化等高级调参方法,进一步优化计算效率与泛化能力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号