基于反事实因果推理的鲁棒视觉问答（VQA）模型CC-VQA：突破跨模态偏见的创新框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月19日 来源：Neural Networks 6.3

编辑推荐：

　　本文提出融合反事实样本合成（CSS）与因果推理的CC-VQA框架，通过因果图解耦多模态伪相关，结合对比损失增强模型鲁棒性，在VQA-CP v2和VQA v2数据集上实现偏差抑制与准确率的双重提升。

Highlight

本研究通过反事实因果推理框架（CC-VQA）创新性地整合反事实样本合成（CSS）与因果干预技术，有效破解视觉问答（VQA）系统中的跨模态偏差问题。该框架不仅提升模型对视觉可解释性和问题敏感性的双重能力，更在偏差抑制和泛化性能上实现突破。

Language and Vision Biases in VQA

视觉问答系统中的偏差源于训练数据中的伪相关性。语言偏差常表现为模型将特定问题类型与固定答案关联，而视觉偏差则源于对表面特征（如物体颜色或位置）的过度依赖。现有方法如RUBi和CF-VQA试图通过抑制单模态捷径来缓解偏差，但缺乏对多模态交互的显式建模。

Methodology

受反事实推理与因果效应启发，我们提出通过反事实样本合成（CSS）与因果推理技术应对跨模态偏差。整体架构包含三大核心模块：因果推理模块、反事实样本合成模块（CSS）和对比学习模块。因果推理模块建模并解耦多模态中的伪相关性，CSS模块生成对抗偏差的多样化样本，对比学习则通过正负样本嵌入对比增强模型鲁棒性。

Dataset

为全面验证模型效能，我们在VQA-CP v²和VQA v²数据集上开展实验。VQA-CP v²具有明显的训练-测试集答案分布偏移，适于评估偏差抑制能力；VQA v²则包含更平衡的分布，用于检验泛化性能。

Conclusion

本研究通过整合反事实样本合成与因果推理，提出了一种应对VQA中跨模态偏差的新方法。相较于仅通过因果干预抑制单模态偏差的CF-VQA，我们的方法通过CSS生成多样反事实样本，并结合对比学习提升鲁棒性，在偏差缓解和泛化能力上均达到更优性能。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号