长尾学习中的再平衡对比损失优化:提升特征空间平衡性与分类准确性的新策略

【字体: 时间:2025年09月29日 来源:Neurocomputing 6.5

编辑推荐:

  本研究针对长尾学习中传统监督对比学习(SCL)对头部类的偏差问题,提出再平衡对比学习(RCL)方法,通过平衡SoftMax损失、特征压缩和正则化技术,在CIFAR10-LT、CIFAR100-LT和ImageNet-LT数据集上实现了SOTA水平的平衡准确率,显著提升了尾部类的特征紧凑性和分类性能。

  
在现实世界的机器学习应用中,数据分布往往呈现不平衡的"长尾"特征——少数类别(头部类)拥有大量样本,而多数类别(尾部类)则样本稀少。这种不平衡性严重影响了分类器的性能,导致模型对尾部类的识别准确率显著降低。特别是在行人检测、欺诈识别和垃圾邮件过滤等关键领域,尾部类的准确识别往往具有更重要的实际意义。
传统解决长尾学习问题的方法主要包括数据层面的重采样、算法层面的损失重加权以及两阶段训练策略。近年来,将监督对比学习(Supervised Contrastive Learning, SCL)与交叉熵损失结合的方法显示出显著优势,因为它能够学习到更好的特征表示。然而,传统的SCL方法存在明显缺陷:它天然偏向于头部类,无法完全消除频繁类别的主导地位,也难以保持从头部到尾类嵌入的线性可分性。
针对这一挑战,悉尼大学的研究团队在《Neurocomputing》上发表了一项创新研究,提出了再平衡对比学习(Rebalanced Contrastive Learning, RCL)方法。该方法在平衡对比学习(BCL)框架的基础上,从三个关键维度优化特征学习:特征空间平衡性(使所有类别平等分割特征空间)、类内紧凑性(减少同类嵌入之间的距离)和正则化(为尾部类实施更大的边际以减少过拟合)。
研究人员采用了几项核心技术方法:首先基于类别频率的平衡SoftMax调整策略来应对训练(长尾)到测试(均匀)的分布偏移;其次通过标量乘数特征压缩技术增强尾部类的类内紧凑性;最后通过频率相关的嵌入边际实施正则化。实验使用了CIFAR10-LT、CIFAR100-LT和ImageNet-LT三个基准数据集,这些数据集的类别不平衡因子(IF)分别设置为100、100和256。
研究结果表明,RCL方法在多个维度取得了显著改进:
在消融研究方面,如表1和表2所示,在CIFAR100-LT数据集上,将RCL添加到标准SCL中使top-1准确率提高了1.1%,调和平均准确率提高了3.2%;在CIFAR10-LT上,相应指标分别提高了2.5%和2.2%。当RCL与BCL结合时,在CIFAR100-LT上top-1准确率提高了0.2%,调和平均准确率提高了0.9%;在CIFAR10-LT上分别提高了1.9%和2.0%。
与现有技术的性能对比显示,RCL作为独立损失函数在CIFAR10-LT(IF=100)上达到85.79%的准确率,在CIFAR100-LT(IF=100)上达到52.1%的准确率,均超过了之前的最先进方法。在ImageNet-LT数据集上,RCL使用ResNet50骨干网络取得了57.6%的整体准确率,在许多 shot、中等 shot和少 shot类别上都表现优异。
特别值得关注的是特征空间分析结果。如图3和表7所示,添加RCL后,学习到的嵌入分布显示出更好的类间分离和特征空间平衡性。Calinski-Harabasz指数(衡量聚类质量和分离度)在CIFAR100-LT上从3962.9提高到4091.8,在CIFAR10-LT上从84.1提高到105.8;Davies-Bouldin指数(衡量聚类紧凑性,值越低越好)也相应降低,表明RCL有效提高了特征簇的质量。
研究的结论部分强调,RCL通过同时优化特征空间平衡性、类内紧凑性和正则化边际,为长尾学习问题提供了全面解决方案。该方法不仅提高了分类准确率,更重要的是改善了学习到的特征表示的质量,使尾部类能够获得与头部类相似的特征表示能力。
这项研究的重要意义在于:首先,RCL的简单实现方式使其能够轻松集成到任何现有的SCL方法中,具有很好的通用性;其次,该方法在三个标准长尾数据集上都展示了优越性能,证明了其鲁棒性;最后,研究提供的详细特征空间分析为理解长尾学习中的表示学习机制提供了宝贵见解。
未来研究方向包括探索RCL在极端类别不平衡(IF>256)情况下的性能,以及将其扩展到自监督对比学习框架中。这些发展将进一步推动长尾学习在实际应用中的部署,特别是在医疗影像分析、罕见疾病诊断等样本不平衡问题突出的领域。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号