综述:MSB-VQA:克服多源偏差实现鲁棒视觉问答

【字体: 时间:2025年07月31日 来源:Neural Networks 6.3

编辑推荐:

  本文提出MSB-VQA模型,通过视觉-问题偏差检测器(VQBD)和余弦分类器,首次从语言/视觉捷径偏差(shortcut bias)和分布偏差(distribution bias)三维度解决视觉问答(VQA)中的多源偏差问题,在VQA-CPv2数据集上实现SOTA性能且无需数据平衡。

  

视觉问答(VQA)作为计算机视觉与自然语言处理的交叉领域,其核心挑战在于模型易受多源偏差干扰。传统方法多聚焦语言偏差(language bias),如模型仅根据问题关键词(如"香蕉颜色")忽略图像实际内容(绿色香蕉)回答"黄色"。MSB-VQA创新性地将偏差细分为三类:语言捷径偏差(问题语义主导)、视觉捷径偏差(突出物体过度关注)和分布偏差(训练/测试集统计差异)。

视觉-问题偏差检测器(VQBD)
受人类跨模态联想能力启发,VQBD通过生成对抗网络(GAN)和知识蒸馏技术,模拟"见文生图"(如从问题想象香蕉图像)和"见图生文"(如从图像推测相关问题)的偏差形成过程。该模块输入单模态信息(纯文本/纯图像)或噪声,输出另一模态的想象内容,从而捕获基模型(Base Model)中的多模态捷径偏差。

分布偏差对抗策略
针对样本频率、难度和答案分布不均问题,采用余弦分类器将特征映射到余弦空间,结合自适应角度间隔损失(adaptive angular margin loss)和监督对比损失(supervised contrastive loss)。例如,对高频答案(如"狗")增大类间间隔,对罕见答案(如"考拉")减小间隔,平衡模型在分布内(ID)和分布外(OOD)数据上的表现。

实验验证
在VQA-CPv2、VQAv2和VQA-CE数据集上的测试显示,MSB-VQA在无需数据平衡条件下,VQA-CPv2准确率提升显著。例如,相比传统集成方法(如问题分支模型),新方法对"颜色类"问题的偏差纠正效果提升23.6%,且保持VQAv2上原始性能下降<1.5%。

未来方向
当前模型在ID和OOD数据间仍存在性能权衡,后续拟通过动态权重调整和跨模态对比学习进一步优化。该框架的模型无关性(model-agnostic)特性使其可适配LXMERT、UpDn等多种骨干网络,为多模态推理系统的偏差治理提供新范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号