
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于SMOTE过采样与集成学习的糖尿病风险预测模型优化研究:Bagging、Boosting及集成分类器的比较评估
【字体: 大 中 小 】 时间:2025年06月18日 来源:Informatics in Medicine Unlocked CS9.5
编辑推荐:
推荐:本研究针对糖尿病风险预测中数据集不平衡、特征选择不足等关键问题,采用SMOTE过采样技术和集成学习方法(包括Bagging、Boosting和CATBoost等),在CDC、ESDRP和PIMA三个数据集上构建预测模型。结果显示,CATBoost在CDC数据集上准确率达91%,集成方法在ESDRP数据集上高达98%,显著提升预测性能,为临床早期干预提供了可靠工具。
糖尿病是全球最严重的慢性疾病之一,国际糖尿病联盟(IDF)数据显示,2021年全球有5.37亿成年人患病,预计2045年将增长46%。传统诊断依赖血糖检测,但成本高且难以早期发现。机器学习(ML)为糖尿病风险预测提供了新思路,但现有研究面临数据集不平衡、特征冗余和模型泛化性不足等挑战。
针对这些问题,研究人员在《Informatics in Medicine Unlocked》发表论文,通过整合SMOTE(Synthetic Minority Over-sampling Technique)过采样、加权特征重要性(WFI)分析和集成学习方法,系统评估了Bagging(如随机森林RF)、Boosting(如XGBoost、CATBoost)等算法在CDC糖尿病健康指标数据集、早期糖尿病风险预测(ESDRP)数据集和PIMA印第安人糖尿病数据集上的性能。
关键技术方法包括:1)使用SMOTE处理CDC和ESDRP数据集的类别不平衡问题;2)基于WFI评分筛选关键特征(如CDC数据集中的PhysHlth、BMI等);3)采用GridSearchCV优化超参数,结合5折交叉验证评估模型;4)构建多数投票(Majority Vote)集成模型整合多算法优势。
研究结果:
结论与意义:该研究通过集成学习和数据平衡技术,显著提升了糖尿病风险预测的准确性,尤其在CDC这类大规模不平衡数据集上表现突出。CATBoost因擅长处理分类特征成为最优算法,而SMOTE虽改善召回率但需权衡精度损失。成果为临床提供了高效、可解释的预测工具,并为医疗AI模型开发设立了新基准。未来可探索贝叶斯优化等高级调参方法,进一步优化计算效率与泛化能力。
生物通微信公众号
知名企业招聘