
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于反事实因果推理的鲁棒视觉问答(VQA)模型CC-VQA:突破跨模态偏见的创新框架
【字体: 大 中 小 】 时间:2025年09月19日 来源:Neural Networks 6.3
编辑推荐:
本文提出融合反事实样本合成(CSS)与因果推理的CC-VQA框架,通过因果图解耦多模态伪相关,结合对比损失增强模型鲁棒性,在VQA-CP v2和VQA v2数据集上实现偏差抑制与准确率的双重提升。
Highlight
本研究通过反事实因果推理框架(CC-VQA)创新性地整合反事实样本合成(CSS)与因果干预技术,有效破解视觉问答(VQA)系统中的跨模态偏差问题。该框架不仅提升模型对视觉可解释性和问题敏感性的双重能力,更在偏差抑制和泛化性能上实现突破。
Language and Vision Biases in VQA
视觉问答系统中的偏差源于训练数据中的伪相关性。语言偏差常表现为模型将特定问题类型与固定答案关联,而视觉偏差则源于对表面特征(如物体颜色或位置)的过度依赖。现有方法如RUBi和CF-VQA试图通过抑制单模态捷径来缓解偏差,但缺乏对多模态交互的显式建模。
Methodology
受反事实推理与因果效应启发,我们提出通过反事实样本合成(CSS)与因果推理技术应对跨模态偏差。整体架构包含三大核心模块:因果推理模块、反事实样本合成模块(CSS)和对比学习模块。因果推理模块建模并解耦多模态中的伪相关性,CSS模块生成对抗偏差的多样化样本,对比学习则通过正负样本嵌入对比增强模型鲁棒性。
Dataset
为全面验证模型效能,我们在VQA-CP v2和VQA v2数据集上开展实验。VQA-CP v2具有明显的训练-测试集答案分布偏移,适于评估偏差抑制能力;VQA v2则包含更平衡的分布,用于检验泛化性能。
Conclusion
本研究通过整合反事实样本合成与因果推理,提出了一种应对VQA中跨模态偏差的新方法。相较于仅通过因果干预抑制单模态偏差的CF-VQA,我们的方法通过CSS生成多样反事实样本,并结合对比学习提升鲁棒性,在偏差缓解和泛化能力上均达到更优性能。
生物通微信公众号
知名企业招聘