基于局部熵对抗过采样(LEAO)的类别重叠不平衡数据集分类优化方法

《Neurocomputing》:Local entropy-adversarial oversampling for imbalanced datasets

【字体: 时间:2025年10月30日 来源:Neurocomputing 6.5

编辑推荐:

  本文提出了一种新颖的过采样方法——局部熵对抗过采样(LEAO),旨在解决类别严重重叠和少数类子概念分布稀疏的不平衡数据集分类难题。该方法利用局部信息熵(Local Entropy)量化实例层面的类别不确定性,构建基于多数类排斥和少数类吸引的对抗模型,自适应地生成边界清晰、判别性强的合成样本。通过熵加权采样策略和动态优化机制,LEAO显著提升了在复杂重叠结构数据集上的分类性能(AUC、G-mean、F-measure),优于12种主流采样方法,为机器学习在生物医学等领域的失衡数据建模提供了新思路。

  
h亮点/h
h相关研究/h
在众多处理不平衡分类的技术中,采样技术因其能作为预处理步骤轻松与任何分类器集成而脱颖而出,被认为是最广泛采用的方法[14]。由于本研究专注于数据层面技术,我们仅回顾与此类方法相关的文献。更具体地说,数据层面的方法包括过采样(Oversampling)、欠采样(Undersampling)和混合采样(Hybrid Sampling)。
h提出的方法/h
为解决不平衡数据集中的类别重叠和复杂采样子区域挑战,本文提出了一种新颖的过采样方法,命名为局部熵对抗过采样(LEAO)。LEAO利用信息熵从实例学习难度的角度建模数据分布,旨在生成高判别性的少数类实例,同时保留原始类别边界。与CCR [22]或NCLO-SMOTE [23]等方法(这些方法通过清理多数类实例来处理重叠)不同,LEAO通过对抗过程引导合成样本生成,避免了预设几何区域的限制。
h实验方法/h
数据集。 本研究在60个二元不平衡数据集上进行了实验评估,这些数据集包括KEEL知识库中的数据集、UCI知识库中的大规模数据集以及高维微阵列(Microarray)数据集。表1总结了这些数据集的统计数据,包括实例总数、特征数量、不平衡比率(IR)以及少数类和多数类实例的数量。为了更好地量化由类别重叠引起的结构复杂性,本研究...
h结论与未来工作/h
本文提出了一种新颖的过采样方法——局部熵对抗过采样(LEAO),以应对不平衡数据集中严重的类别重叠和稀疏的少数类子概念分布的挑战。LEAO的核心思想在于利用局部信息熵量化类别不确定性,并指导构建每个少数类实例与其邻近多数类实例之间的对抗模型。新的合成少数类实例通过基于梯度的优化在接近零熵的区域生成,以确保更好的可分离性和判别性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号