基于反事实因果推理的鲁棒视觉问答(VQA)模型CC-VQA:突破跨模态偏见的创新框架

【字体: 时间:2025年09月19日 来源:Neural Networks 6.3

编辑推荐:

  本文提出融合反事实样本合成(CSS)与因果推理的CC-VQA框架,通过因果图解耦多模态伪相关,结合对比损失增强模型鲁棒性,在VQA-CP v2和VQA v2数据集上实现偏差抑制与准确率的双重提升。

  

Highlight

本研究通过反事实因果推理框架(CC-VQA)创新性地整合反事实样本合成(CSS)与因果干预技术,有效破解视觉问答(VQA)系统中的跨模态偏差问题。该框架不仅提升模型对视觉可解释性和问题敏感性的双重能力,更在偏差抑制和泛化性能上实现突破。

Language and Vision Biases in VQA

视觉问答系统中的偏差源于训练数据中的伪相关性。语言偏差常表现为模型将特定问题类型与固定答案关联,而视觉偏差则源于对表面特征(如物体颜色或位置)的过度依赖。现有方法如RUBi和CF-VQA试图通过抑制单模态捷径来缓解偏差,但缺乏对多模态交互的显式建模。

Methodology

受反事实推理与因果效应启发,我们提出通过反事实样本合成(CSS)与因果推理技术应对跨模态偏差。整体架构包含三大核心模块:因果推理模块、反事实样本合成模块(CSS)和对比学习模块。因果推理模块建模并解耦多模态中的伪相关性,CSS模块生成对抗偏差的多样化样本,对比学习则通过正负样本嵌入对比增强模型鲁棒性。

Dataset

为全面验证模型效能,我们在VQA-CP v2和VQA v2数据集上开展实验。VQA-CP v2具有明显的训练-测试集答案分布偏移,适于评估偏差抑制能力;VQA v2则包含更平衡的分布,用于检验泛化性能。

Conclusion

本研究通过整合反事实样本合成与因果推理,提出了一种应对VQA中跨模态偏差的新方法。相较于仅通过因果干预抑制单模态偏差的CF-VQA,我们的方法通过CSS生成多样反事实样本,并结合对比学习提升鲁棒性,在偏差缓解和泛化能力上均达到更优性能。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号