
-
生物通官微
陪你抓住生命科技
跳动的脉搏
双向双对比适应方法缓解视觉问答中的幻觉现象
【字体: 大 中 小 】 时间:2025年06月03日 来源:Expert Systems with Applications 7.5
编辑推荐:
为解决多模态大语言模型(MLLMs)在视觉问答(VQA)中产生的幻觉问题,研究人员提出了一种无需训练的Bi-DCA方法。该方法通过双向注意力机制扩展视觉感受野,并采用双对比适应策略增强图像空间信息对预测的影响。实验表明,Bi-DCA能有效缓解物体混淆和空间定向错误,在多个基准测试中优于现有方法,为MLLMs的实际应用提供了新思路。
在人工智能领域,多模态大语言模型(Multimodal Large Language Models, MLLMs)展现出强大的跨模态理解能力,尤其在视觉问答(Visual Question Answering, VQA)任务中表现突出。然而,这些模型常产生与输入内容无关的"幻觉"响应,例如将犀牛误认为大象,或错误描述图像空间关系。这种问题在医疗影像和自动驾驶等关键场景可能造成严重后果。现有方法多依赖微调或强化学习,需要高昂的标注和计算成本,而推理阶段的优化方案如OPERA和VCD仍难以解决物体混淆和空间定向错误两大核心挑战。
北京邮电大学的研究团队在《Expert Systems with Applications》发表论文,提出名为双向双对比适应(Bi-directional Dual Contrastive Adapting, Bi-DCA)的创新方法。该方法通过两个关键技术突破:首先设计双向注意力机制,利用方向性掩码扩展视觉感受野,使模型在推理时能同时考虑前后向依赖关系;其次提出双对比适应策略,整合部分可见、全可见及旋转全可见三种视觉状态下的预测分数,增强图像空间信息对token预测的影响。研究采用CHAIR、MME、POPE等基准测试,结合GPT-4和GPT-4V的辅助分析,证实该方法能显著降低幻觉率且保持文本流畅性。
关键技术包括:1) 基于自注意力图的方向性掩码构建双向注意力机制;2) 设计包含三种视觉状态(部分可见、全可见、旋转全可见)的对比预测框架;3) 在多个MLLMs模型(InstructBLIP、MiniGPT4等)上验证方法的普适性;4) 采用GPT-4系列模型进行语言学质量和幻觉程度的双重评估。
【Multimodal Large Language Models】章节阐明MLLMs通过可学习接口连接视觉编码器与LLMs,分为投影层和适配器两种架构。
【Method】部分详细介绍了双向注意力机制的实现:在传统因果注意力基础上,通过方向性掩码使每个图像块能同时关注前后区域,形成"全可见状态"。双对比适应则通过加权整合三种视觉状态的预测分布,其中旋转状态专门强化空间信息编码。
【Settings】显示实验覆盖InstructBLIP、MiniGPT4等主流MLLMs,测试集包括COCO14等标准数据集。
【Ablation Study】证实旋转角度15°时效果最佳,且推理耗时仅增加7%。
【GPT-4 Assisted Analysis】显示Bi-DCA生成文本的语法、流畅性评分均优于基线,PPL(困惑度)降低12.3%。
【GPT-4V Assisted Analysis】通过细粒度评估发现,该方法在属性级幻觉减少率达34.5%。
【Case Study】可视化案例显示,在位置、颜色等基础视觉任务中,Bi-DCA能准确识别关键物体并生成合理描述。
研究结论指出,Bi-DCA首次在不增加训练成本的前提下,通过改进推理过程同步解决了物体混淆和空间定向两大挑战。其创新性体现在:1) 将双向注意力引入视觉特征提取;2) 建立多状态对比预测框架;3) 保持与现有解码方法的兼容性。这项工作为MLLMs的可靠性提升提供了新范式,在医疗诊断等高风险领域具有重要应用价值。讨论部分强调,未来可探索更精细的方向性掩码设计,以及将方法扩展至视频理解等时序任务。
生物通微信公众号
知名企业招聘