基于SMOTE过采样与集成学习的糖尿病风险预测模型优化研究：Bagging、Boosting及集成分类器的比较评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月18日 来源：Informatics in Medicine Unlocked CS9.5

编辑推荐：

　　推荐：本研究针对糖尿病风险预测中数据集不平衡、特征选择不足等关键问题，采用SMOTE过采样技术和集成学习方法（包括Bagging、Boosting和CATBoost等），在CDC、ESDRP和PIMA三个数据集上构建预测模型。结果显示，CATBoost在CDC数据集上准确率达91%，集成方法在ESDRP数据集上高达98%，显著提升预测性能，为临床早期干预提供了可靠工具。

糖尿病是全球最严重的慢性疾病之一，国际糖尿病联盟（IDF）数据显示，2021年全球有5.37亿成年人患病，预计2045年将增长46%。传统诊断依赖血糖检测，但成本高且难以早期发现。机器学习（ML）为糖尿病风险预测提供了新思路，但现有研究面临数据集不平衡、特征冗余和模型泛化性不足等挑战。

针对这些问题，研究人员在《Informatics in Medicine Unlocked》发表论文，通过整合SMOTE（Synthetic Minority Over-sampling Technique）过采样、加权特征重要性（WFI）分析和集成学习方法，系统评估了Bagging（如随机森林RF）、Boosting（如XGBoost、CATBoost）等算法在CDC糖尿病健康指标数据集、早期糖尿病风险预测（ESDRP）数据集和PIMA印第安人糖尿病数据集上的性能。

关键技术方法包括：1）使用SMOTE处理CDC和ESDRP数据集的类别不平衡问题；2）基于WFI评分筛选关键特征（如CDC数据集中的PhysHlth、BMI等）；3）采用GridSearchCV优化超参数，结合5折交叉验证评估模型；4）构建多数投票（Majority Vote）集成模型整合多算法优势。

研究结果：

CDC数据集分析：CATBoost在二分类（非糖尿病vs 2型糖尿病）中准确率达91.97%，优于RF（84.31%）。多分类任务中，RF表现最佳（84.8%），但SMOTE导致召回率提升（95.79%）而精度下降（86.56%）。
ESDRP数据集分析：RF在15个特征下实现100%准确率，集成方法（Majority Vote）在5个特征时仍保持97.65%性能，验证了特征选择的鲁棒性。
PIMA数据集分析：RF在6个特征（葡萄糖、BMI等）下取得82.92%的交叉验证准确率，优于其他算法。

结论与意义：该研究通过集成学习和数据平衡技术，显著提升了糖尿病风险预测的准确性，尤其在CDC这类大规模不平衡数据集上表现突出。CATBoost因擅长处理分类特征成为最优算法，而SMOTE虽改善召回率但需权衡精度损失。成果为临床提供了高效、可解释的预测工具，并为医疗AI模型开发设立了新基准。未来可探索贝叶斯优化等高级调参方法，进一步优化计算效率与泛化能力。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号