
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:MSB-VQA:克服多源偏差实现鲁棒视觉问答
【字体: 大 中 小 】 时间:2025年07月31日 来源:Neural Networks 6.3
编辑推荐:
本文提出MSB-VQA模型,通过视觉-问题偏差检测器(VQBD)和余弦分类器,首次从语言/视觉捷径偏差(shortcut bias)和分布偏差(distribution bias)三维度解决视觉问答(VQA)中的多源偏差问题,在VQA-CPv2数据集上实现SOTA性能且无需数据平衡。
视觉问答(VQA)作为计算机视觉与自然语言处理的交叉领域,其核心挑战在于模型易受多源偏差干扰。传统方法多聚焦语言偏差(language bias),如模型仅根据问题关键词(如"香蕉颜色")忽略图像实际内容(绿色香蕉)回答"黄色"。MSB-VQA创新性地将偏差细分为三类:语言捷径偏差(问题语义主导)、视觉捷径偏差(突出物体过度关注)和分布偏差(训练/测试集统计差异)。
视觉-问题偏差检测器(VQBD)
受人类跨模态联想能力启发,VQBD通过生成对抗网络(GAN)和知识蒸馏技术,模拟"见文生图"(如从问题想象香蕉图像)和"见图生文"(如从图像推测相关问题)的偏差形成过程。该模块输入单模态信息(纯文本/纯图像)或噪声,输出另一模态的想象内容,从而捕获基模型(Base Model)中的多模态捷径偏差。
分布偏差对抗策略
针对样本频率、难度和答案分布不均问题,采用余弦分类器将特征映射到余弦空间,结合自适应角度间隔损失(adaptive angular margin loss)和监督对比损失(supervised contrastive loss)。例如,对高频答案(如"狗")增大类间间隔,对罕见答案(如"考拉")减小间隔,平衡模型在分布内(ID)和分布外(OOD)数据上的表现。
实验验证
在VQA-CPv2、VQAv2和VQA-CE数据集上的测试显示,MSB-VQA在无需数据平衡条件下,VQA-CPv2准确率提升显著。例如,相比传统集成方法(如问题分支模型),新方法对"颜色类"问题的偏差纠正效果提升23.6%,且保持VQAv2上原始性能下降<1.5%。
未来方向
当前模型在ID和OOD数据间仍存在性能权衡,后续拟通过动态权重调整和跨模态对比学习进一步优化。该框架的模型无关性(model-agnostic)特性使其可适配LXMERT、UpDn等多种骨干网络,为多模态推理系统的偏差治理提供新范式。
生物通微信公众号
知名企业招聘