基于动态偏置缓解标签与全局感知上下文的视觉问答去偏方法研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月30日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　本文推荐：该研究提出BMLAC（Bias Mitigation Label and Aware Context）框架，通过动态构建偏置缓解标签（BML）调整样本损失权重，结合全局感知上下文（AC）模块增强多模态特征融合，采用集成训练策略平衡语言先验与视觉理解。在VQA-CP v2（60.91%）和VQA v2（60.81%）上实现SOTA性能，显著缩小分布外与分布内数据性能差距（0.34%），为视觉问答（VQA）的鲁棒性研究提供新范式。

亮点

• 提出模型无关的通用框架BMLAC，支持端到端训练，可无缝集成各类VQA模型，高效解决语言偏置问题。

• 创新性设计偏置缓解标签（BML）模块，通过动态样本加权精准调控损失分布，避免传统方法对无偏样本的过度惩罚。

• 全局感知上下文（AC）模块有效保留有益先验信息，提升模型对图像-问题关联的深层理解能力。

方法

本部分详解BMLAC的四大核心模块：

（A）基础VQA模块：作为主干网络提取视觉-语言特征。

（B）偏置缓解标签模块：基于偏置模型预测与答案语义相似度动态生成BML标签，公式化计算样本偏置程度，实现差异化损失加权。

（C）全局感知上下文模块：通过跨模态注意力机制捕获图像全局信息（如场景布局）和问题语义脉络（如逻辑关联），生成抗干扰的融合特征。

（D）集成训练模块：采用软投票机制融合基础VQA与去偏模块输出，保留偏置样本有益信息的同时降低其决策权重。

数据集

实验选用三大基准：

1.
VQA v2：经典内分布数据集，用于评估模型基础性能。
2.
VQA-CP v2：通过人为构造训练-测试集答案分布偏移（如将"网球"替换为"棒球"），专门检测模型抗偏置能力。
3.
GQA：包含更复杂的推理问题，验证模型泛化性。

结论

BMLAC在VQA-CP v2（60.91%）和VQA v2（60.81%）上均达最优水平，与预训练模型LXMERT结合后性能进一步提升至64.55%和64.21%，分布间差距仅0.34%（p<0.05）。消融实验证实BML的动态加权、AC的全局信息、集成训练三者的协同作用是性能突破的关键。该框架为多模态学习中的偏置问题提供了可解释的解决方案。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号