综述：机器学习在类别不平衡场景中的概述：趋势、挑战与方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月04日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　这篇综述系统性地梳理了机器学习在类别不平衡（Class Imbalance）领域的研究进展，结合混合搜索策略（QGS方法）分析了25,593篇文献，最终纳入468篇核心研究。文章揭示了SMOTE（61%）、混合方法及深度学习（如CNN）的应用趋势，强调ROC-AUC（优于F1-score和准确率）在评估中的重要性，并提出了基于问题场景-算法-评估指标的实证分类法，为医学诊断（如癌症检测）、欺诈识别等关键领域提供方法学指导。

引言

类别不平衡问题在医学诊断、欺诈检测等关键领域长期存在，当少数类样本（如罕见病例）占比极低时，传统机器学习模型（如逻辑回归）会偏向多数类，导致临床误判风险。研究表明，84%的研究聚焦表格数据，而图像任务中深度学习（如CNN）占比达41%。

方法与创新

研究采用混合搜索协议，结合人工筛选与AI自动化（语义嵌入、图排序算法），通过准黄金集（QGS）校准检索策略。初始25,593篇文献经筛选后保留468篇，其中55%为跨领域研究。

核心发现

•
技术分布：61%研究采用SMOTE或混合方法（如GAN+代价敏感学习），而联邦学习、对比学习等新兴范式在隐私敏感场景（如电子病历分析）中崛起。
•
评估陷阱：准确率（Accuracy）在极端不平衡数据中失效，ROC-AUC成为黄金标准（如癌症筛查）。
•
数据模态：表格数据主导（84%），但图像领域CNN增长显著（41%），尤其在病理切片分析中。

实证分类法

基于证据链构建“场景-算法-评估”三维分类：

1.
表格数据：推荐SMOTE-ENN（混合采样）+ XGBoost（代价敏感）。
2.
图像数据：CNN+焦点损失（Focal Loss）组合在肿瘤检测中F1-score提升23%。
3.
低标签环境：半监督学习（如FixMatch）显著减少标注需求。

挑战与趋势

•
深度学习的局限性：CNN在小样本类别中易过拟合，需结合迁移学习（如BERT-NER用于罕见病文本挖掘）。
•
评估标准化缺失：仅38%研究报告类别分布比例，阻碍横向对比。

结论

该研究不仅整合了跨领域方法（如联邦学习用于多中心医疗数据），还提供了场景化选择指南（如金融风控优先选用集成采样+LightGBM）。未来需加强可解释性研究与实时不平衡学习框架开发。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号