可解释的视觉问答系统:关于方法、数据集和评估的综述

《Information Fusion》:Explainable Visual Question Answering: A Survey on Methods, Datasets and Evaluation

【字体: 时间:2026年02月10日 来源:Information Fusion 15.5

编辑推荐:

  本文系统综述可解释视觉问答(XVQA)领域,提出三级分类法(生成时机、解释形式、模型架构),梳理标注数据集及评估指标,分析当前挑战与未来方向,促进多模态AI的可信应用。

  
王亚贤|林启康|史江波|安一胜|刘俊|魏碧帆|姜旭东
中国陕西省西安市长安大学信息工程学院,邮编710064

摘要

近年来,视觉问答(Visual Question Answering, VQA)已成为计算机视觉与自然语言处理交叉领域的一项重要任务,要求模型能够同时理解图像和文本查询。它已成为评估多模态理解和推理能力的常用基准。随着VQA准确率的提升,人们对VQA模型的可解释性和透明度的需求也在增加,这对于提高模型在关键领域的可信度和应用性至关重要。本调查探讨了可解释视觉问答(Explainable Visual Question Answering, XVQA)这一新兴领域,该领域不仅旨在提供正确答案,还生成有意义的解释来证明预测结果的正确性。首先,我们系统地回顾了现有的XVQA方法,并提出了一种三级分类法对其进行整理。所提出的分类法主要根据理由生成的时间和理由的形式对XVQA方法进行分类。其次,我们回顾了包含不同形式解释的现有VQA数据集,包括文本、视觉和多模态理由。此外,我们还总结了针对不同形式理由的XVQA评估指标。最后,我们概述了XVQA面临的挑战并讨论了潜在的未来发展方向。我们的目标是整理该领域的现有研究,并为未来关于VQA模型可解释性的研究提供灵感。

引言

视觉问答(VQA)[1]、[2]、[3]、[4]、[5]旨在预测关于图像内容的问题的答案,这是计算机视觉与自然语言处理交叉领域的一项跨学科任务。随着多模态大型语言模型(Multimodal Large Language Models, MLMs)[6]、[7]、[8]的最新发展,VQA已成为评估AI系统多模态理解和推理能力的常用基准。最近的VQA模型[9]、[10]、[11]、[12]在特征增强、语言先验的缓解以及鲁棒性提升等方面取得了显著进展。尽管在准确率方面取得了令人印象深刻的进步,但这些VQA模型往往像“黑盒子”一样运行,无法提供对其决策背后的推理过程的深入洞察。这一限制极大地限制了这些模型在实际应用中的部署和适用性,尤其是在教育[13]、医疗[15]、金融[17]等对可解释性要求极高的领域。在现实世界的问答应用中,用户不仅关心获得正确答案,还关心理解其背后的理由。因此,可解释视觉问答(XVQA)作为一个关键的研究方向,受到了越来越多的关注,它旨在弥合可解释性方面的差距,并促进多模态模型在实际场景中的可信部署。与传统主要关注生成正确答案的VQA模型不同,XVQA模型侧重于生成附带理由的答案,这些理由以不同的形式阐明模型的决策过程。如图1所示,传统VQA方法仅提供最终答案,而XVQA方法则通过探查VQA模型或采用设计上可解释的架构来揭示模型的推理过程和支持证据。通过提高透明度和鲁棒性,XVQA方法显著提升了AI系统的可靠性和实际效用。
本调查的目的是全面系统地概述XVQA领域的方法、数据集、评估指标、局限性及未来发展方向。据我们所知,这是首份专门针对XVQA的综合性调查。虽然现有的调查已经探讨了VQA范围内的更广泛领域[19]、[20]、[21]、[22]以及可解释机器学习(Explainable Machine Learning, XAI)[23]、[24]、[25]和可解释视觉推理[26]、[27],但它们并未提供针对XVQA的具体方法、数据集和评估指标的详细回顾。特别是,这些工作缺乏针对该任务定制的评估指标的系统性总结。在本调查中,我们旨在通过深入回顾现有工作来填补这些空白。
为了提供一个结构化且全面的XVQA领域概述,本调查围绕几个基本研究问题展开。具体来说,我们关注以下四个核心问题:(1)解释何时生成? 我们研究了VQA流程中解释产生的时间点,并探讨了这一时间点如何影响系统架构和可解释性。根据生成时间,我们将VQA流程中的解释生成分为事后(post-hoc)和事前(ante-hoc)两种类型,如图1(b)和(c)所示。事后解释是在预测答案之后生成的,通常通过单独的可解释技术实现,因此不会影响答案本身。事前解释是在预测答案之前生成的,成为推理过程的一个组成部分。事后解释和事前解释之间的核心区别见表1。(2)解释以何种形式呈现? 我们探讨了事后和事前类型中解释的不同表现形式,包括文本、视觉、图形、符号和多模态理由,并分析了每种形式对用户理解和模型透明度的贡献。(3)哪些数据集支持XVQA? 我们回顾了提供各种形式解释的现有数据集,包括文本、视觉和多模态理由。(4)如何评估生成解释的质量? 我们探讨了用于评估解释质量的评估指标,包括针对文本、视觉和多模态理由的自动和人工评估。通过围绕这些核心问题构建调查,我们旨在提供对XVQA领域进展、局限性和前景的连贯而全面的理解。
在第2节中,我们提出了一个新的分类法来对现有的XVQA工作进行分类。第3节介绍了带有理由注释的VQA数据集。第4节回顾了这些数据集中使用的评估指标。第5节概述了面临的挑战和未来发展方向。

章节片段

方法

本节探讨了两个基本问题:“解释何时生成?”和“解释以何种形式呈现?”,以构建我们对解释策略的讨论。图2展示了XVQA方法的三级层次分类法以及本文中回顾的相关方法。图3展示了每个类别中的模型范式或代表性模型。

数据集

在本节中,我们回答了“哪些数据集支持XVQA?”这个问题。我们介绍了包含解释理由的VQA数据集,这些理由解释了选定答案背后的推理过程,如表5所示。首先,理由注释为模型提供了更丰富的监督信号。与仅使用答案进行训练相比,添加解释可以引导模型学习更合理的推理路径,并促进其从表面关联向深度理解的转变。

评估

在本节中,我们探讨了“如何评估生成解释的质量?”。评估不同形式生成解释的质量对于确保模型推理的忠实性、增强用户信任以及促进更强大的推理策略的发展至关重要。它还提供了对准确性的补充视角,使得对推理能力的评估更加全面。

挑战与未来方向

XVQA不仅要求模型正确回答视觉问题,还要求它提供人类可理解的解释或推理过程。这是AI系统从“结果导向”向“过程可信”转变的重要一步,尤其是在医学、司法和教育等关键领域尤为重要。
尽管近年来XVQA取得了显著进展,但仍存在一些未解决的问题,包括XVQA的幻觉现象以及多模态标准的统一问题。

结论

本调查全面回顾了可解释视觉问答(XVQA)在方法、数据集和评估指标方面的研究。在方法论方面,我们提出了一种统一的三级分类法,根据理由生成的时间和形式对现有方法进行分类。我们系统地介绍了这些方法,强调了它们的主要差异,并讨论了各自的优缺点。我们还介绍了带有注释的数据集。

CRediT作者贡献声明

王亚贤:撰写——审稿与编辑、撰写——初稿、可视化、验证、方法论、调查、形式分析、概念化。林启康:撰写——审稿与编辑、方法论、调查、形式分析、概念化。史江波:撰写——审稿与编辑、可视化、验证、方法论、调查、概念化。安一胜:可视化、监督、方法论、调查、资金获取、概念化。刘俊:

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号