FeDi:用于自监督学习的功能解耦方法
《Pattern Recognition》:FeDi: Feature disentanglement for self-supervised learning
【字体:
大
中
小
】
时间:2025年10月18日
来源:Pattern Recognition 7.6
编辑推荐:
FeDi是一种新型自监督学习方法,通过最大化批次维度上表示向量的互信息下界实现特征解耦,有效防止表示坍塌并提升模型性能。实验表明其在ImageNet及多任务上优于现有方法,且能充分利用高维嵌入空间。
李正荣|孙健辉|黄多植
韩国首尔延世大学电气与电子工程学院
摘要
自监督学习(SSL)通过从无标签数据中提取有意义的表示,彻底改变了深度学习领域。在这项工作中,我们介绍了一种名为
FeDi的新SSL方法,该方法利用特征纠缠(feature entanglement)来提高学习到的表示的质量和鲁棒性。FeDi最大化了批量维度之间表示向量之间的互信息下界,有效地解耦了特征并防止了表示的坍塌。我们提出的方法作为一种具有难度感知能力的损失函数,自动平衡了对齐项和解耦项,有效管理了高维表示解耦的挑战。我们的广泛实验表明,FeDi在包括图像分类、对象检测和分割在内的多种任务中始终优于现有的SSL方法。代码可在以下链接获取:
https://github.com/mongeoroo/fedi引言
随着深度学习研究的发展,最近的研究在一般图像[1]、医学图像[2] [3]和图数据[4]方面取得了显著进展。在模式识别的背景下,自监督学习(SSL)通过使模型能够从无标签数据中学习有意义的表示而显示出巨大潜力[5] [6]。对比学习[7]是最重要的自监督学习方法之一,旨在最大化与正样本的相似性并最小化与负样本的相似性。它的目标是最大化一对视图嵌入之间的互信息。然而,对比学习方法的性能取决于负样本的数量;因此,需要使用较大的批量大小(SimCLR)[8]或较大的内存库(MoCo)[9]来获得高性能。因此,研究人员尝试仅使用正样本通过自监督学习方法来解决这个问题[10]。这些方法指导网络在没有任何负样本的情况下将输入样本的多个视图嵌入到接近的潜在向量空间中。在这种情况下,主要问题是如何解决模型仅输出常数的坍塌问题。为此,一些研究提出了非对称架构或梯度操作来防止坍塌问题[11]。另一方面,Barlow Twins[10]提出了一种目标函数,通过使输入图像的两个增强视图之间的互相关矩阵尽可能接近单位矩阵来防止坍塌问题。在没有非对称架构或停止梯度操作的情况下,Barlow Twins在ImageNet[12]的实验中与当前最先进的方法相当。它使用互相关矩阵与单位矩阵之间的均方误差来解决优化问题。Barlow Twins旨在减少学习到的表示之间的冗余;随着网络输出维度的增加,其性能也会提高。然而,通过数学分析和实验结果,我们发现当CIFAR-10[13]和Pascal VOC[14]数据集中的嵌入维度超过某个最大值时,Barlow Twins的性能开始下降。
在这项研究中,我们提出了一种名为FeDi的新目标函数,该函数通过最大化批量维度之间表示向量之间的互信息下界来执行特征解耦。我们的数学分析表明,FeDi进行了难度感知训练[15]。凭借其特性,FeDi充分利用了输出维度的好处,而不受Barlow Twins目标函数的限制。
我们在ImageNet[12]和各种其他数据集[16] [17]上对我们的方法进行了评估,涵盖了图像分类、对象检测和实例分割任务。结果表明,FeDi在大多数实验中优于之前的自监督方法。此外,消融研究显示,我们的方法有效地防止了对称架构中的坍塌问题,并且随着网络维度的增加而提高了性能。
我们的贡献如下:
1.我们提出了一种名为FeDi的新目标函数,该函数通过最大化表示向量之间的互信息下界来执行特征解耦。
2.正如我们的数学分析所揭示的,FeDi通过平衡对齐项和解耦项,并根据负特征向量的难度调整惩罚,有效地解决了高维表示解耦的挑战。我们还通过实证证明了FeDi充分利用了网络的维度能力,从而在嵌入维度增加时提高了性能,而无需优化负担。
3.我们通过包括线性评估、半监督学习、对象检测和实例分割任务在内的各种实验客观评估了我们的方法。我们的方法在广泛的实验中优于之前的自监督方法。
相关工作
对比学习
对比学习方法[7]通过直接比较正样本和负样本来进行自监督学习。正样本是通过在一个图像上进行两种不同随机增强得到的图像,而负样本是通过对其它图像样本应用增强得到的数据样本。负样本可以存储在内存库[9] [18]中,或者由一个小批量[8]中的数据样本组成。
大多数对比学习方法使用InfoNCE[7]派生而来
方法
动机。我们的目标是指导模型从给定样本中提取最大量的信息。为此,我们将特征解耦纳入自监督学习中,确保学习到的表示彼此正交。表示之间的强正交性意味着最小相关性,表明每个表示捕获了不同且独立的特征。换句话说,如果没有任何
实验
我们通过对ImageNet ILSVRC-2012训练集[12]进行自监督预训练,并进行包括线性评估、半监督学习、检测和分割任务在内的广泛实验来评估FeDi。
结论
FeDi通过特征解耦在自监督学习方面取得了显著进展。数学分析表明,FeDi进行了难度感知训练,使其能够在没有优化问题的情况下充分利用网络的维度能力,特别是在高维空间中。我们的实验表明,FeDi不仅在各种任务(包括分类、检测和分割)中优于现有的最先进方法,而且
CRediT作者贡献声明
李正荣:可视化、验证、软件、方法论、概念化。孙健辉:方法论、概念化。黄多植:监督、方法论、资金获取、概念化。
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:李正荣报告称获得了韩国国家研究基金会的财务支持。李正荣报告称获得了韩国科学技术院的行政支持。如果有其他作者,他们声明没有已知的财务利益或个人关系可能被视为
致谢
这项工作部分得到了韩国国家研究基金会(2022R1A2C2008983, RS-2025-02215070, RS-2025-02217919)资助的基础科学研究计划的支持;部分得到了延世大学人工智能研究生院项目(编号RS-2020-II201361)的支持;部分得到了KIST机构项目(2E33801, 2E33800)的支持;以及部分得到了延世大学2024年标志性研究集群项目(2024-22-0161)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号