编辑推荐:
针对不平衡数据集分类难题,尤其 SMOTE 在含小析取和离群值数据中易生成重叠少数类实例的问题,研究人员提出基于多数数据的重叠偏移技术(MDOS)。实验表明,该方法优于传统过采样方法,为不平衡分类提供新方向。
在机器学习领域,不平衡数据集分类一直是极具挑战性的课题。这类数据中不同类别的样本数量差异悬殊,少数类样本往往因占比极低而在分类过程中被多数类 “淹没”,导致模型难以捕捉其特征,尤其当数据中存在小析取(仅少量少数类实例被多数类包围的区域)和离群值时,分类性能会进一步恶化。传统的过采样方法如合成少数类过采样技术(Synthetic Minority Over-sampling Technique,SMOTE)虽能通过生成合成样本增加少数类数量,但由于在采样过程中未考虑多数类的分布,极易在小析取和离群值区域产生重叠样本 —— 这些合成样本侵入多数类空间,不仅无法改善分类边界,反而可能误导模型学习,加剧分类误差。因此,如何在过采样过程中避免重叠、同时保留少数类的关键信息(如小析取和离群值所代表的边界特征),成为提升不平衡数据分类性能的核心挑战。
为解决上述问题,国内研究团队开展了一项针对含小析取和离群值的不平衡数据集分类方法的研究,相关成果发表在《Expert Systems with Applications》。该研究提出一种基于多数数据的重叠偏移技术(Majority Data-based Overlapping Shift Technique,MDOS),通过拓扑描述多数类空间、优化过采样策略及迭代偏移重叠样本,显著提升了复杂不平衡数据的分类效果。
研究人员采用的关键技术方法包括:
- 多数类空间拓扑建模:基于多数类样本到对立类最近邻的距离及不平衡比,用不同半径的超球体(Hyperspheres)描述多数类空间,每个超球体中心为不含其他类样本的代表性多数类实例,确保精准识别侵入多数类空间的重叠样本。
- 轮盘选择过采样策略:结合样本密度和到分类边界的距离计算选择概率,使边界和稀疏的少数类样本(如小析取和离群值)获得更高采样机会,以优化少数类的边界分布并缓解类内不平衡问题。
- 重叠样本迭代偏移:将落入多数类超球体内的合成少数类样本识别为重叠样本,沿背离最近超球体中心、朝向目标少数类实例的方向迭代偏移,直至其完全脱离多数类空间,避免直接删除样本导致的信息丢失。
实验结果
1. 二维模拟数据集验证
在含小析取和离群值的二维模拟数据集上,与 SMOTE、safe-SMOTE、k-means-SMOTE 等传统方法对比,MDOS 生成的少数类样本更均匀分布于真实边界附近,且几乎无重叠侵入多数类空间的现象。量化指标显示,MDOS 在 F1 分数、G-mean 等不平衡数据敏感指标上显著优于对比方法,尤其在不平衡比(Imbalance Ratio, IR)>10 的极端场景下优势更明显。
2. 基准数据集泛化性测试
在多个真实基准数据集(如 UCI 库中的经典不平衡数据集)上,MDOS 的分类性能均表现出一致性优势。实验表明,其构建的超球体模型无需依赖参数微调即可精准识别重叠样本,且轮盘选择策略有效提升了稀疏和边界样本的采样权重,使模型能更好地捕捉少数类的潜在分布特征,尤其在处理高维数据时,避免了传统深度学习方法因依赖模型训练而导致的过拟合风险。
结论与讨论
MDOS 通过 “多数类空间拓扑表征 — 差异化过采样 — 重叠样本定向偏移” 的完整流程,系统性解决了传统过采样方法在复杂不平衡数据中的重叠问题,同时兼顾了类间平衡与类内结构优化。其核心创新点在于:
- 利用超球体模型实现无参数重叠样本识别,避免了传统过滤方法对人工调参的依赖,有效保护了小析取和离群值等关键少数类实例不被误删;
- 轮盘选择策略显式优化了信息丰富的边界样本,增强了少数类的空间分布多样性,缓解了类内不平衡对分类器的干扰;
- 迭代偏移而非删除重叠样本的设计,在消除重叠的同时引导样本向潜在的少数类区域探索,扩大了模型对未知少数类分布的感知范围。
该研究为不平衡数据分类提供了一种高效、鲁棒的预处理框架,尤其在医疗诊断、金融欺诈检测等少数类至关重要的实际场景中具有显著应用价值。未来可进一步探索该方法在高维数据和流数据场景中的适应性,以及与集成学习方法的结合,以推动其在更复杂现实问题中的落地。