综述：MSB-VQA：克服多源偏差实现鲁棒视觉问答

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月31日 来源：Neural Networks 6.3

编辑推荐：

　　本文提出MSB-VQA模型，通过视觉-问题偏差检测器（VQBD）和余弦分类器，首次从语言/视觉捷径偏差（shortcut bias）和分布偏差（distribution bias）三维度解决视觉问答（VQA）中的多源偏差问题，在VQA-CPv2数据集上实现SOTA性能且无需数据平衡。

视觉问答（VQA）作为计算机视觉与自然语言处理的交叉领域，其核心挑战在于模型易受多源偏差干扰。传统方法多聚焦语言偏差（language bias），如模型仅根据问题关键词（如"香蕉颜色"）忽略图像实际内容（绿色香蕉）回答"黄色"。MSB-VQA创新性地将偏差细分为三类：语言捷径偏差（问题语义主导）、视觉捷径偏差（突出物体过度关注）和分布偏差（训练/测试集统计差异）。

视觉-问题偏差检测器（VQBD）
受人类跨模态联想能力启发，VQBD通过生成对抗网络（GAN）和知识蒸馏技术，模拟"见文生图"（如从问题想象香蕉图像）和"见图生文"（如从图像推测相关问题）的偏差形成过程。该模块输入单模态信息（纯文本/纯图像）或噪声，输出另一模态的想象内容，从而捕获基模型（Base Model）中的多模态捷径偏差。

分布偏差对抗策略
针对样本频率、难度和答案分布不均问题，采用余弦分类器将特征映射到余弦空间，结合自适应角度间隔损失（adaptive angular margin loss）和监督对比损失（supervised contrastive loss）。例如，对高频答案（如"狗"）增大类间间隔，对罕见答案（如"考拉"）减小间隔，平衡模型在分布内（ID）和分布外（OOD）数据上的表现。

实验验证
在VQA-CPv2、VQAv2和VQA-CE数据集上的测试显示，MSB-VQA在无需数据平衡条件下，VQA-CPv2准确率提升显著。例如，相比传统集成方法（如问题分支模型），新方法对"颜色类"问题的偏差纠正效果提升23.6%，且保持VQAv2上原始性能下降<1.5%。

未来方向
当前模型在ID和OOD数据间仍存在性能权衡，后续拟通过动态权重调整和跨模态对比学习进一步优化。该框架的模型无关性（model-agnostic）特性使其可适配LXMERT、UpDn等多种骨干网络，为多模态推理系统的偏差治理提供新范式。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号