
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于组级去相关视觉Transformer的领域泛化方法GDViT提升模型鲁棒性
【字体: 大 中 小 】 时间:2025年09月23日 来源:Neurocomputing 6.5
编辑推荐:
本文提出GDViT(Group-level Decorrelation-based Vision Transformer),通过显式分组特征(token)并保持组内相关性,有效消除领域泛化(DG)中相关与无关特征间的伪相关性。该方法采用动态特征分组模块和分组Transformer编码器,结合监督对比损失,在多源和单源DG设定中均显著提升分布外泛化性能,为因果启发的机器学习模型提供新思路。
亮点
• 我们提出基于组级去相关的视觉Transformer,以提升模型在领域偏移下的泛化性能。
• 我们设计分组Transformer编码器,在组级别消除特征相关性。
• 我们的方法在多源和单源领域泛化(DG)设定中均取得优异结果。
引言
基于独立同分布(i.i.d)假设训练的机器学习模型在现实复杂数据生成机制(如混杂因素和数据选择偏差)下性能下降。领域泛化(DG)旨在利用有限源域学习可泛化至未见目标域的模型。
性能下降主因是模型错误学习无关特征(背景、图像风格等)与标签间的伪相关性。因果启发方法通过去相关(decorrelation)提升分布外泛化,但现有方法缺乏显式特征分组,可能破坏相关特征内部结构。如图1所示,StableNet降低组间相关性(IGC-RG-IRG)但同时减少相关组内相关性(IGC-RG),而我们的方法显著降低组间相关性同时保持组内相关性,表3实验进一步验证该优势,注意力热图也更合理。
我们提出GDViT,分离相关与无关特征,保持相关特征内部相关性。采用基于补丁的网络视觉Transformer(ViT),其比卷积神经网络(CNN)更适合特征分离。将图像分为固定大小补丁,特征划分为相关组和无关组(图1),设计分组Transformer编码器进行组级去相关。分组识别极具挑战,受CLUSTSEG和Clusterfomer迭代动态更新策略启发,设计动态估计最优分组的特征分组模块。为减轻分组偏差导致特征提取不准确的风险,采用双分支架构增强鲁棒性并加速收敛。一分支使用标准Transformer编码器,另一分支使用分组编码器,两分支从同一输入提取特征并共享监督信号。由于特征对应相同标签,可视为同一样本的两个视图(views),引入监督对比损失以对齐特征表示并提升泛化。
总结贡献
• 提出组级去相关视觉Transformer提升领域偏移下泛化性能。
• 设计分组Transformer编码器实现组级特征去相关。
• 在多源和单源DG基准数据集取得突出结果。
章节概要
第2节介绍领域泛化相关研究,第3和第4节描述必要预备知识和提出方法,第5节展示实验结果,第6节总结。
相关研究
本节简要回顾领域泛化研究,重点讨论因果启发方法。以经验风险最小化(ERM)为基线,DG方法分为数据操作、表示学习和学习策略三类。数据操作方法通过增强策略提升训练多样性。
预备知识
首先陈述领域泛化问题,然后概述作为方法基础的ViT。
提出方法
为实现特征分组,将图像分为补丁。先前研究表明ViT对背景和纹理偏好较弱,但对形状和结构归纳偏好更强,更接近人类感知,因此在分布偏移下比CNN泛化更好,故选择ViT为骨干。为消除无关特征与标签间伪相关性,需...
实验结果
以实验设置描述开始,后续小节展示对比结果证明方法有效性,最后提供消融研究和可视化分析以深入理解方法。
结论
本研究提出组级去相关视觉Transformer用于领域泛化。设计分组Transformer编码器按组去除相关与无关特征间相关性,更好学习相关特征。方法在多源和单源设定基准数据集上取得竞争性性能。可视化结果表明方法帮助模型减少对无关特征注意力...
生物通微信公众号
知名企业招聘