
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:机器学习在类别不平衡场景中的概述:趋势、挑战与方法
【字体: 大 中 小 】 时间:2025年09月04日 来源:Expert Systems with Applications 7.5
编辑推荐:
这篇综述系统性地梳理了机器学习在类别不平衡(Class Imbalance)领域的研究进展,结合混合搜索策略(QGS方法)分析了25,593篇文献,最终纳入468篇核心研究。文章揭示了SMOTE(61%)、混合方法及深度学习(如CNN)的应用趋势,强调ROC-AUC(优于F1-score和准确率)在评估中的重要性,并提出了基于问题场景-算法-评估指标的实证分类法,为医学诊断(如癌症检测)、欺诈识别等关键领域提供方法学指导。
类别不平衡问题在医学诊断、欺诈检测等关键领域长期存在,当少数类样本(如罕见病例)占比极低时,传统机器学习模型(如逻辑回归)会偏向多数类,导致临床误判风险。研究表明,84%的研究聚焦表格数据,而图像任务中深度学习(如CNN)占比达41%。
研究采用混合搜索协议,结合人工筛选与AI自动化(语义嵌入、图排序算法),通过准黄金集(QGS)校准检索策略。初始25,593篇文献经筛选后保留468篇,其中55%为跨领域研究。
技术分布:61%研究采用SMOTE或混合方法(如GAN+代价敏感学习),而联邦学习、对比学习等新兴范式在隐私敏感场景(如电子病历分析)中崛起。
评估陷阱:准确率(Accuracy)在极端不平衡数据中失效,ROC-AUC成为黄金标准(如癌症筛查)。
数据模态:表格数据主导(84%),但图像领域CNN增长显著(41%),尤其在病理切片分析中。
基于证据链构建“场景-算法-评估”三维分类:
表格数据:推荐SMOTE-ENN(混合采样)+ XGBoost(代价敏感)。
图像数据:CNN+焦点损失(Focal Loss)组合在肿瘤检测中F1-score提升23%。
低标签环境:半监督学习(如FixMatch)显著减少标注需求。
深度学习的局限性:CNN在小样本类别中易过拟合,需结合迁移学习(如BERT-NER用于罕见病文本挖掘)。
评估标准化缺失:仅38%研究报告类别分布比例,阻碍横向对比。
该研究不仅整合了跨领域方法(如联邦学习用于多中心医疗数据),还提供了场景化选择指南(如金融风控优先选用集成采样+LightGBM)。未来需加强可解释性研究与实时不平衡学习框架开发。
生物通微信公众号
知名企业招聘