LININ:用于解释性视觉问答的逻辑集成神经推理网络

《IEEE Transactions on Multimedia》:LININ: Logic Integrated Neural Inference Network for Explanatory Visual Question Answering

【字体: 时间:2025年11月19日 来源:IEEE Transactions on Multimedia 9.7

编辑推荐:

  EVQA任务需同时生成答案和解释,现有方法忽略问题提示并强制预测所有答案概率,同时未捕捉问题词、视觉区域与解释令牌间的复杂关系。本文提出LININ模型,基于一阶逻辑筛选候选答案,利用多模态Transformer编码器提取特征,并通过解释Transformer构建跨模态关系生成理性解释。实验表明LININ在EVQA基准数据集上表现优于现有方法。

  

摘要:

解释性视觉问答(EVQA)是一种新提出的多模态推理任务,旨在回答视觉问题并生成关于推理过程的多模态解释。与传统仅关注预测视觉问题答案的视觉问答(VQA)任务不同,EVQA还旨在生成用户友好的解释,以提高推理模型的可解释性和可信度。目前,现有的VQA和EVQA方法忽略了问题中的提示,并强制模型预测所有答案的概率。此外,现有的EVQA方法也没有考虑到问题词、视觉区域和解释标记之间的复杂关系。因此,在这项工作中,我们提出了一种逻辑集成神经推理网络(LININ),该网络基于一阶逻辑(FOL)来限制候选答案的范围,并捕捉跨模态关系以生成合理的解释。首先,我们设计了一个基于FOL的问题分析程序来获取少量的候选答案;其次,我们使用多模态变换器编码器提取视觉和问题特征,并对候选答案进行预测;最后,我们设计了一个多模态解释变换器来构建跨模态关系并生成合理的解释。在基准数据集上的综合实验表明,LININ相比现有的EVQA方法具有更优越的性能。

引言

对多模态信息进行推理是人类固有的能力,也是人工智能面临的一个基本问题[1]、[2]、[3]。尽管深度神经网络在各种多模态推理任务上取得了令人鼓舞的性能[4]、[5]、[6]、[7]、[8],但现有的多模态推理模型通常在生成推理结果时不会解释其背后的理由。因此,生成结果的可解释性较低,大大降低了这些模型的可信度,并限制了它们的应用范围。此外,现有模型常常受到虚假数据偏见的影响[9]、[10],可能无法真正捕捉多模态输入和输出之间的因果关系。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号