基于梯度驱动重加权与约束剪枝的自适应偏置学习框架在视觉问答鲁棒性提升中的创新研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月29日 来源：Computer Vision and Image Understanding 3.5

编辑推荐：

　　本文提出ABLNet框架，通过梯度驱动样本重加权（量化样本偏置强度）和约束网络剪枝（限制偏置模型容量）双机制，有效解决视觉问答（VQA）中的语言分布偏置（language distribution bias）和视觉捷径偏置（visual shortcut bias），在VQA-CPv1/VQA-CPv2/VQA-v2数据集上实现SOTA性能（最高达71.41%）。

亮点

本研究创新性地提出两项核心技术：

1.
梯度驱动样本重加权：通过训练梯度量化单样本偏置强度，优先学习低偏置样本以优化偏置模型训练；
2.
约束网络剪枝：人为限制偏置模型容量，强化其对偏置模式的聚焦能力。

讨论

该方法具有显式的偏置控制特性：

• 自适应重加权机制动态分配样本权重（梯度决定），增强偏置模型对数据集中偏置信息的学习能力；

• 轻量化剪枝策略通过限制偏置模型容量，迫使其依赖数据集中的表面相关性（如背景颜色与答案的伪关联）。

结论

ABLNet通过双机制协同：

① 对"难样本"（低偏置样本）施加更高权重，挖掘潜在偏置；

② 剪枝后的偏置模型像"偏置探测器"，更专注捕捉数据集的伪相关性。在VQA-CPv2测试中，以LXMERT为骨干网络时准确率突破71.41%，证实其对复杂视觉语义推理的提升效果。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号