基于组级去相关视觉Transformer的领域泛化方法GDViT提升模型鲁棒性

【字体: 时间:2025年09月23日 来源:Neurocomputing 6.5

编辑推荐:

  本文提出GDViT(Group-level Decorrelation-based Vision Transformer),通过显式分组特征(token)并保持组内相关性,有效消除领域泛化(DG)中相关与无关特征间的伪相关性。该方法采用动态特征分组模块和分组Transformer编码器,结合监督对比损失,在多源和单源DG设定中均显著提升分布外泛化性能,为因果启发的机器学习模型提供新思路。

  

亮点

• 我们提出基于组级去相关的视觉Transformer,以提升模型在领域偏移下的泛化性能。

• 我们设计分组Transformer编码器,在组级别消除特征相关性。

• 我们的方法在多源和单源领域泛化(DG)设定中均取得优异结果。

引言

基于独立同分布(i.i.d)假设训练的机器学习模型在现实复杂数据生成机制(如混杂因素和数据选择偏差)下性能下降。领域泛化(DG)旨在利用有限源域学习可泛化至未见目标域的模型。

性能下降主因是模型错误学习无关特征(背景、图像风格等)与标签间的伪相关性。因果启发方法通过去相关(decorrelation)提升分布外泛化,但现有方法缺乏显式特征分组,可能破坏相关特征内部结构。如图1所示,StableNet降低组间相关性(IGC-RG-IRG)但同时减少相关组内相关性(IGC-RG),而我们的方法显著降低组间相关性同时保持组内相关性,表3实验进一步验证该优势,注意力热图也更合理。

我们提出GDViT,分离相关与无关特征,保持相关特征内部相关性。采用基于补丁的网络视觉Transformer(ViT),其比卷积神经网络(CNN)更适合特征分离。将图像分为固定大小补丁,特征划分为相关组和无关组(图1),设计分组Transformer编码器进行组级去相关。分组识别极具挑战,受CLUSTSEG和Clusterfomer迭代动态更新策略启发,设计动态估计最优分组的特征分组模块。为减轻分组偏差导致特征提取不准确的风险,采用双分支架构增强鲁棒性并加速收敛。一分支使用标准Transformer编码器,另一分支使用分组编码器,两分支从同一输入提取特征并共享监督信号。由于特征对应相同标签,可视为同一样本的两个视图(views),引入监督对比损失以对齐特征表示并提升泛化。

总结贡献

• 提出组级去相关视觉Transformer提升领域偏移下泛化性能。

• 设计分组Transformer编码器实现组级特征去相关。

• 在多源和单源DG基准数据集取得突出结果。

章节概要

第2节介绍领域泛化相关研究,第3和第4节描述必要预备知识和提出方法,第5节展示实验结果,第6节总结。

相关研究

本节简要回顾领域泛化研究,重点讨论因果启发方法。以经验风险最小化(ERM)为基线,DG方法分为数据操作、表示学习和学习策略三类。数据操作方法通过增强策略提升训练多样性。

预备知识

首先陈述领域泛化问题,然后概述作为方法基础的ViT。

提出方法

为实现特征分组,将图像分为补丁。先前研究表明ViT对背景和纹理偏好较弱,但对形状和结构归纳偏好更强,更接近人类感知,因此在分布偏移下比CNN泛化更好,故选择ViT为骨干。为消除无关特征与标签间伪相关性,需...

实验结果

以实验设置描述开始,后续小节展示对比结果证明方法有效性,最后提供消融研究和可视化分析以深入理解方法。

结论

本研究提出组级去相关视觉Transformer用于领域泛化。设计分组Transformer编码器按组去除相关与无关特征间相关性,更好学习相关特征。方法在多源和单源设定基准数据集上取得竞争性性能。可视化结果表明方法帮助模型减少对无关特征注意力...

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号