综述:机器学习在类别不平衡场景中的概述:趋势、挑战与方法

【字体: 时间:2025年09月04日 来源:Expert Systems with Applications 7.5

编辑推荐:

  这篇综述系统性地梳理了机器学习在类别不平衡(Class Imbalance)领域的研究进展,结合混合搜索策略(QGS方法)分析了25,593篇文献,最终纳入468篇核心研究。文章揭示了SMOTE(61%)、混合方法及深度学习(如CNN)的应用趋势,强调ROC-AUC(优于F1-score和准确率)在评估中的重要性,并提出了基于问题场景-算法-评估指标的实证分类法,为医学诊断(如癌症检测)、欺诈识别等关键领域提供方法学指导。

  

引言

类别不平衡问题在医学诊断、欺诈检测等关键领域长期存在,当少数类样本(如罕见病例)占比极低时,传统机器学习模型(如逻辑回归)会偏向多数类,导致临床误判风险。研究表明,84%的研究聚焦表格数据,而图像任务中深度学习(如CNN)占比达41%。

方法与创新

研究采用混合搜索协议,结合人工筛选与AI自动化(语义嵌入、图排序算法),通过准黄金集(QGS)校准检索策略。初始25,593篇文献经筛选后保留468篇,其中55%为跨领域研究。

核心发现

  • 技术分布:61%研究采用SMOTE或混合方法(如GAN+代价敏感学习),而联邦学习、对比学习等新兴范式在隐私敏感场景(如电子病历分析)中崛起。

  • 评估陷阱:准确率(Accuracy)在极端不平衡数据中失效,ROC-AUC成为黄金标准(如癌症筛查)。

  • 数据模态:表格数据主导(84%),但图像领域CNN增长显著(41%),尤其在病理切片分析中。

实证分类法

基于证据链构建“场景-算法-评估”三维分类:

  1. 1.

    表格数据:推荐SMOTE-ENN(混合采样)+ XGBoost(代价敏感)。

  2. 2.

    图像数据:CNN+焦点损失(Focal Loss)组合在肿瘤检测中F1-score提升23%。

  3. 3.

    低标签环境:半监督学习(如FixMatch)显著减少标注需求。

挑战与趋势

  • 深度学习的局限性:CNN在小样本类别中易过拟合,需结合迁移学习(如BERT-NER用于罕见病文本挖掘)。

  • 评估标准化缺失:仅38%研究报告类别分布比例,阻碍横向对比。

结论

该研究不仅整合了跨领域方法(如联邦学习用于多中心医疗数据),还提供了场景化选择指南(如金融风控优先选用集成采样+LightGBM)。未来需加强可解释性研究与实时不平衡学习框架开发。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号