多类别不平衡学习中数据重采样与集成学习的有效性研究
《ARTIFICIAL INTELLIGENCE REVIEW》:Effectiveness of data resampling and ensemble learning in multiclass imbalance learning
【字体:
大
中
小
】
时间:2025年10月07日
来源:ARTIFICIAL INTELLIGENCE REVIEW 13.9
编辑推荐:
本文针对多类别不平衡数据集分类性能下降的难题,系统综述了数据重采样和集成学习两类主流方法的有效性。研究团队通过全面比较分析发现,并非所有方法都能有效提升分类性能,部分方法甚至劣于基线,并揭示了类别重叠、类别配置等难度因素对方法效果的显著影响。该研究为未来开发更高效的多类别不平衡学习策略提供了重要见解和方向指引。
在现实世界的分类任务中,我们常常会遇到一个令人头疼的问题:某些类别的样本数量远远多于其他类别。这种类别不平衡的现象在医疗诊断、网络安防、金融风控等领域尤为常见。传统的机器学习算法往往在平衡数据集上表现出色,但一旦面对这种"贫富悬殊"的数据,就会产生明显的偏见——它们会倾向于预测样本数量多的类别,而忽视那些数量稀少但可能更为重要的类别。
虽然早期的研究主要集中在二分类不平衡问题上,但现实问题往往涉及多个类别,这使得问题变得更加复杂。想象一下,在一个医疗数据集中,健康人群占大多数,而多种不同疾病的患者群体规模各异,这种多类别不平衡场景给分类模型带来了额外挑战。更棘手的是,不平衡不仅仅是数量问题,数据本身还存在类别重叠、小分离域等复杂性因素,这些都会进一步降低分类性能。
在这篇发表在《Artificial Intelligence Review》上的论文中,Muhammad Fachrie等人对多类别不平衡学习领域进行了全面梳理,重点分析了数据重采样和集成学习两大类方法的有效性。研究团队发现,尽管该领域已有大量方法被提出,但缺乏对这些方法在面对多类别不平衡特有挑战时的系统评估。
研究人员采用了严谨的分析框架,从方法机制、性能表现与难度因素关系等多个维度展开研究。他们收集了19个常用的多类别不平衡数据集,涵盖从医疗到工业的多个领域,并设计了详细的实验来评估各种方法在不同难度场景下的表现。
关键技术方法包括对14种数据重采样方法和12种集成学习方法的系统比较。研究采用mGM(多类别几何均值)和AvAcc(平均准确率)等适合不平衡学习的评估指标,通过5次10折交叉验证获取基线性能,确保比较的可靠性。分析重点考察了方法在类别重叠、小分离域、类别配置等难度因素下的表现差异。
研究表明,基于局部边界采样的方法如MC-NRO和NROMM在多数情况下表现最佳。MC-NRO结合了MC-RBO的高斯径向基函数分布采样和MC-CCR的数据平移策略,同时通过移除与其他类别重叠的多数类样本来减少类别重叠的影响。这种方法在渐进不平衡数据集上特别有效,能够在不显著改变数据分布的情况下扩大少数类的覆盖区域。
相比之下,传统的SMOTE(合成少数类过采样技术)基于插值的过采样方法在某些场景下会产生噪声样本,加剧类别重叠问题。研究还发现,基于类别配对处理的方法比基于单个类别或所有类别处理的方法更为有效,因为它们能在生成多样本的同时考虑其他类别样本的存在。
在集成学习方面,结合bagging和boosting机制的Easy-BPNN表现出色,特别是在多少数类配置的数据集上。该方法将EasyEnsemble框架与反向传播神经网络(BPNN)作为基分类器结合,通过在每个bootstrap中应用随机欠采样来增加分类器多样性,同时减少类别重叠的影响。
研究还发现,在测试阶段应用自适应过采样策略的DRCW-ASEG也表现出竞争力。该方法仅在对查询实例邻域内类别不平衡比率显著较高时才生成合成样本,避免了过度过采样导致的过拟合问题。而使用不同大小子集且保持类别分布平衡的bagging机制,如DES-MI和DPSE,在特定类型数据集上也取得了良好效果。
研究揭示了类别重叠是影响分类性能的最重要因素。随着重叠比例的增加,所有方法的分类性能都呈现下降趋势。在多多数类配置的数据集中,多数类之间的重叠(MajMaj)和多数类与少数类之间的重叠(MajMin)对性能的负面影响尤为显著。
类别配置也是关键因素之一。研究发现,多少数类配置的数据集对数据重采样方法最具挑战性,大多数重采样方法难以在此类数据集上实现性能提升。这主要是因为少数类缺乏足够的代表性样本,导致分类器难以学习有效的决策边界。
与基线性能的比较发现,MC-NRO和NROMM在88%的数据集上实现了性能提升,而MC-RBO和MC-CCR分别只在76%和59%的数据集上有所改进。在集成学习方法中,Easy-BPNN平均比基线性能提高了7.6%,在Balance-scale数据集上甚至实现了32%的最大提升。
值得注意的是,并非所有方法都能带来改进。某些较早的方法如S-SMOTE、MDO和SMOM在多少数类数据集上表现不佳,甚至导致性能下降。这表明方法的选择需要根据数据集的特性和难度因素进行仔细考量。
该研究的主要结论是,针对多类别不平衡学习问题,需要根据数据特性选择合适的方法。对于类别重叠严重的数据集,结合边界采样和数据移除的策略更为有效;而对于多少数类配置的数据集,则需要重点扩大少数类区域的覆盖范围。
在集成学习方面,提高基分类器的多样性是关键。这可以通过生成不同大小的子集、在集成框架内使用其他集成算法以及采用特定的数据预处理策略来实现。研究还指出,加权投票和软投票机制在未来工作中值得进一步探索,以替代简单多数投票机制。
这项研究的意义在于为多类别不平衡学习提供了系统的评估框架和实践指导。通过揭示不同方法在各种难度因素下的表现差异,研究为开发更有效的学习策略指明了方向。特别是在处理多少数类数据集和高度重叠数据集方面,研究指出了现有方法的局限性,为未来研究提供了明确的目标。
研究的实际应用价值体现在多个领域,如医疗诊断中罕见病的识别、工业制造中的缺陷检测、金融交易中的欺诈识别等。这些场景通常涉及多个类别且存在严重的不平衡问题,本研究的方法评估框架可帮助从业者选择最适合其特定问题的技术路线。
未来研究可望在以下几个方向取得突破:开发更有效的多少数类数据集处理方法、探索特征选择和特征提取在不平衡学习中的作用、结合多种重采样技术的混合策略、以及在集成学习中集成更先进的数据重采样方法替代传统的SMOTE技术。
总的来说,这项研究通过系统的实证分析,填补了多类别不平衡学习领域的评估空白,为研究者提供了宝贵的见解和方法选择指南,有望推动该领域向更有效、更实用的方向发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号