基于组级去相关视觉Transformer的领域泛化方法GDViT提升模型鲁棒性

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月23日 来源：Neurocomputing 6.5

编辑推荐：

　　本文提出GDViT（Group-level Decorrelation-based Vision Transformer），通过显式分组特征（token）并保持组内相关性，有效消除领域泛化（DG）中相关与无关特征间的伪相关性。该方法采用动态特征分组模块和分组Transformer编码器，结合监督对比损失，在多源和单源DG设定中均显著提升分布外泛化性能，为因果启发的机器学习模型提供新思路。

亮点

• 我们提出基于组级去相关的视觉Transformer，以提升模型在领域偏移下的泛化性能。

• 我们设计分组Transformer编码器，在组级别消除特征相关性。

• 我们的方法在多源和单源领域泛化（DG）设定中均取得优异结果。

引言

基于独立同分布（i.i.d）假设训练的机器学习模型在现实复杂数据生成机制（如混杂因素和数据选择偏差）下性能下降。领域泛化（DG）旨在利用有限源域学习可泛化至未见目标域的模型。

性能下降主因是模型错误学习无关特征（背景、图像风格等）与标签间的伪相关性。因果启发方法通过去相关（decorrelation）提升分布外泛化，但现有方法缺乏显式特征分组，可能破坏相关特征内部结构。如图1所示，StableNet降低组间相关性（IGC-RG-IRG）但同时减少相关组内相关性（IGC-RG），而我们的方法显著降低组间相关性同时保持组内相关性，表3实验进一步验证该优势，注意力热图也更合理。

我们提出GDViT，分离相关与无关特征，保持相关特征内部相关性。采用基于补丁的网络视觉Transformer（ViT），其比卷积神经网络（CNN）更适合特征分离。将图像分为固定大小补丁，特征划分为相关组和无关组（图1），设计分组Transformer编码器进行组级去相关。分组识别极具挑战，受CLUSTSEG和Clusterfomer迭代动态更新策略启发，设计动态估计最优分组的特征分组模块。为减轻分组偏差导致特征提取不准确的风险，采用双分支架构增强鲁棒性并加速收敛。一分支使用标准Transformer编码器，另一分支使用分组编码器，两分支从同一输入提取特征并共享监督信号。由于特征对应相同标签，可视为同一样本的两个视图（views），引入监督对比损失以对齐特征表示并提升泛化。

总结贡献

• 提出组级去相关视觉Transformer提升领域偏移下泛化性能。

• 设计分组Transformer编码器实现组级特征去相关。

• 在多源和单源DG基准数据集取得突出结果。

章节概要

第2节介绍领域泛化相关研究，第3和第4节描述必要预备知识和提出方法，第5节展示实验结果，第6节总结。

相关研究

本节简要回顾领域泛化研究，重点讨论因果启发方法。以经验风险最小化（ERM）为基线，DG方法分为数据操作、表示学习和学习策略三类。数据操作方法通过增强策略提升训练多样性。

预备知识

首先陈述领域泛化问题，然后概述作为方法基础的ViT。

提出方法

为实现特征分组，将图像分为补丁。先前研究表明ViT对背景和纹理偏好较弱，但对形状和结构归纳偏好更强，更接近人类感知，因此在分布偏移下比CNN泛化更好，故选择ViT为骨干。为消除无关特征与标签间伪相关性，需...

实验结果

以实验设置描述开始，后续小节展示对比结果证明方法有效性，最后提供消融研究和可视化分析以深入理解方法。

结论

本研究提出组级去相关视觉Transformer用于领域泛化。设计分组Transformer编码器按组去除相关与无关特征间相关性，更好学习相关特征。方法在多源和单源设定基准数据集上取得竞争性性能。可视化结果表明方法帮助模型减少对无关特征注意力...

热点排行

新闻专题

联系信箱：

粤ICP备09063491号