基于去偏变分推理的多模态互促提示调优方法DviT提升视觉-语言模型泛化能力

【字体: 时间:2025年06月13日 来源:Knowledge-Based Systems 7.2

编辑推荐:

  针对多模态提示调优中存在的模态割裂与单向关联问题,中国科学院团队提出DviT框架,通过视觉风格扰动策略消除视觉模态偏差,结合变分推理建模提示不确定性,并设计分支感知耦合机制实现双向互促。实验表明该方法在11个数据集上显著提升CLIP模型对新类别、跨数据集及域偏移的泛化能力。

  

视觉-语言模型(Vision-Language Models, VLMs)如CLIP通过海量图文对齐预训练展现出强大的跨模态理解能力,但其下游应用面临两大瓶颈:传统全参数微调易导致预训练知识遗忘,而手工设计提示模板(prompt)又难以适应多样场景。尽管近期提示调优(prompt tuning)技术通过优化文本嵌入提升了效率,但多数研究仅关注文本编码器,忽视了视觉与语言模态的双向协同。更关键的是,现有方法存在模态割裂或单向关联缺陷——或仅让视觉分支单向受文本影响,或反之——这种"单边主义"严重限制了多模态表征的对齐深度。此外,基于经验风险最小化(Empirical Risk Minimization, ERM)的确定性提示优化易过拟合特定任务描述,而视觉模态固有的上下文偏差(如过度依赖"飞机在天空"这类场景特征)进一步损害模型对新类别(如地面飞机)的识别能力。

针对上述挑战,中国科学院团队在《Knowledge-Based Systems》发表研究,提出去偏变分推理多模态互促提示调优框架DviT。该工作创新性地融合三项核心技术:(1)视觉风格扰动策略,通过随机干扰上下文特征迫使模型聚焦类别本质属性;(2)基于变分推理(Variational Inference, VI)的提示不确定性建模,将提示空间视为概率分布以增强泛化;(3)分支感知耦合机制,显式建立语言到视觉的反向提示通路。研究采用11个数据集验证框架有效性,涵盖基类-新类泛化、跨数据集迁移和域偏移适应三大场景。

【视觉到语言提示的去偏优化】
通过傅里叶变换解构图像内容与风格特征,设计随机风格扰动模块破坏虚假相关特征(如天空背景),使视觉提示聚焦物体本质属性。结合变分自编码器(VAE)将去偏后的视觉提示映射为高斯分布,通过重参数化技术采样多样化的文本提示,有效缓解ERM导致的过拟合问题。

【语言到视觉提示的耦合机制】
在文本分支引入可学习的前缀token,通过注意力掩码控制其仅作用于视觉分支的特定网络层。采用对比损失约束跨模态提示空间,确保视觉与语言嵌入在联合空间中对齐,实现双向知识流动。

【三阶段验证体系】
在基类-新类泛化测试中,DviT在Caltech101等数据集上较MaPLe提升3.2%平均准确率;跨数据集迁移实验中,仅用ImageNet训练的模型在OxfordPets上达到89.7%准确率;域偏移测试显示其对风格化图像(如漫画风)的鲁棒性显著优于Co-CoOp。

该研究开创性地将变分推理引入多模态提示调优领域,其去偏设计有效破解了视觉模态的语境依赖困境。通过建立双向互促机制,DviT实现了CLIP模型参数效率与泛化性能的协同提升,为医疗影像跨模态检索(如病理图像-报告对齐)等场景提供了新思路。文末作者指出,未来可探索提示分布的可解释性,并将框架扩展至视频-文本等动态模态对齐任务。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号