基于动态偏置缓解标签与全局感知上下文的视觉问答去偏方法研究

【字体: 时间:2025年08月30日 来源:Expert Systems with Applications 7.5

编辑推荐:

  本文推荐:该研究提出BMLAC(Bias Mitigation Label and Aware Context)框架,通过动态构建偏置缓解标签(BML)调整样本损失权重,结合全局感知上下文(AC)模块增强多模态特征融合,采用集成训练策略平衡语言先验与视觉理解。在VQA-CP v2(60.91%)和VQA v2(60.81%)上实现SOTA性能,显著缩小分布外与分布内数据性能差距(0.34%),为视觉问答(VQA)的鲁棒性研究提供新范式。

  

亮点

• 提出模型无关的通用框架BMLAC,支持端到端训练,可无缝集成各类VQA模型,高效解决语言偏置问题。

• 创新性设计偏置缓解标签(BML)模块,通过动态样本加权精准调控损失分布,避免传统方法对无偏样本的过度惩罚。

• 全局感知上下文(AC)模块有效保留有益先验信息,提升模型对图像-问题关联的深层理解能力。

方法

本部分详解BMLAC的四大核心模块:

(A)基础VQA模块:作为主干网络提取视觉-语言特征。

(B)偏置缓解标签模块:基于偏置模型预测与答案语义相似度动态生成BML标签,公式化计算样本偏置程度,实现差异化损失加权。

(C)全局感知上下文模块:通过跨模态注意力机制捕获图像全局信息(如场景布局)和问题语义脉络(如逻辑关联),生成抗干扰的融合特征。

(D)集成训练模块:采用软投票机制融合基础VQA与去偏模块输出,保留偏置样本有益信息的同时降低其决策权重。

数据集

实验选用三大基准:

  1. 1.

    VQA v2:经典内分布数据集,用于评估模型基础性能。

  2. 2.

    VQA-CP v2:通过人为构造训练-测试集答案分布偏移(如将"网球"替换为"棒球"),专门检测模型抗偏置能力。

  3. 3.

    GQA:包含更复杂的推理问题,验证模型泛化性。

结论

BMLAC在VQA-CP v2(60.91%)和VQA v2(60.81%)上均达最优水平,与预训练模型LXMERT结合后性能进一步提升至64.55%和64.21%,分布间差距仅0.34%(p<0.05)。消融实验证实BML的动态加权、AC的全局信息、集成训练三者的协同作用是性能突破的关键。该框架为多模态学习中的偏置问题提供了可解释的解决方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号