基于Wasserstein GAN的密度感知对抗重采样框架WGAN-VDE:解决类别不平衡与重叠分类问题的计算高效方法

【字体: 时间:2025年08月10日 来源:CMES - Computer Modeling in Engineering and Sciences

编辑推荐:

  针对类别不平衡数据集中传统过采样方法忽略密度分布导致冗余和类别重叠的问题,Sidra Jubair团队提出WGAN-VDE框架,通过变分自编码器(VAE)结构化表征、密度约束Wasserstein GAN生成和核密度估计(KDE)筛选三重机制,在20个基准数据集上显著提升F1-score、G-Mean等指标,为医疗诊断、金融风控等领域的非平衡学习提供新范式。

  

在机器学习广泛应用于医疗诊断、金融风控等领域的今天,类别不平衡数据集的处理始终是制约模型性能的瓶颈问题。传统过采样方法如SMOTE虽能缓解样本数量失衡,却因忽视特征空间密度分布而引发样本冗余和类别重叠,尤其在欺诈检测、罕见病诊断等高价值场景中,这种缺陷会直接导致关键少数类样本的误判。更令人头疼的是,现有基于生成对抗网络(GAN)的方法虽能模拟数据分布,却缺乏对生成样本空间位置的精准控制,常陷入模式坍塌或训练不稳定的困境。

大连理工大学数学科学学院的研究团队在《CMES - Computer Modeling in Engineering and Sciences》发表的研究中,创新性地提出WGAN-VDE框架。该研究通过三阶段协同机制:首先利用变分自编码器(VAE)将少数类样本编码为结构化潜变量,保留原始分布特征;随后采用带密度约束的Wasserstein GAN(WGAN)在低密度区域生成样本;最后通过核密度估计(KDE)动态筛选合成样本,确保80%的生成样本位于真实少数类样本密度分布的稀疏区域。关键技术包括潜空间Z=μ+σ·ε的重参数化技巧、结合梯度惩罚(GP)的Wasserstein损失函数LCritic,以及基于高斯核的密度评分ρ(X)=1/n∑exp(-‖x-xi2/2h2)。

研究结果部分显示:

  1. 结构化特征表征:VAE编码器通过KL散度约束的潜空间学习,使生成样本的F1-score较传统SMOTE提升21.8%。

  2. 密度感知生成:在Coil2000数据集(IR=15.76)上,WGAN-VDE的G-Mean达0.8412,显著优于WGAN-GP的0.6752。

  3. 样本精筛机制:KDE阈值τ设为20%百分位时,合成样本平均密度评分ρ?降至-2.633,较未过滤样本降低37.5%。

在22个数据集对比实验中,WGAN-VDE全面超越11种基线方法:在极端不平衡数据集Abalone19(IR=129.44)上,其AUC达0.7788,而SMOTE和Tomek Links完全失效;Friedman检验显示其在G-Mean、F1-score等指标上排名均居首(p<0.05)。计算效率方面,每样本训练耗时0.8426秒,较WGAN-GP提速39.6%。

这项研究的突破性在于首次将密度感知机制嵌入生成对抗网络的完整流程,通过VAE-WGAN-KDE的级联架构,既解决了传统过采样方法的盲目性问题,又克服了GAN类方法的不稳定性。特别是在KDD Cup Land vs. Satan数据集(IR=75.67)上的成功应用,验证了该方法在网络安全等现实场景的适用性。未来拓展至多分类任务时,需重点研究类条件密度估计与标签依赖建模,这将为癌症分型等复杂医学分类问题开辟新途径。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号