
-
生物通官微
陪你抓住生命科技
跳动的脉搏
LININ:用于解释性视觉问答的逻辑集成神经推理网络
《IEEE Transactions on Multimedia》:LININ: Logic Integrated Neural Inference Network for Explanatory Visual Question Answering
【字体: 大 中 小 】 时间:2025年11月19日 来源:IEEE Transactions on Multimedia 9.7
编辑推荐:
EVQA任务需同时生成答案和解释,现有方法忽略问题提示并强制预测所有答案概率,同时未捕捉问题词、视觉区域与解释令牌间的复杂关系。本文提出LININ模型,基于一阶逻辑筛选候选答案,利用多模态Transformer编码器提取特征,并通过解释Transformer构建跨模态关系生成理性解释。实验表明LININ在EVQA基准数据集上表现优于现有方法。
对多模态信息进行推理是人类固有的能力,也是人工智能面临的一个基本问题[1]、[2]、[3]。尽管深度神经网络在各种多模态推理任务上取得了令人鼓舞的性能[4]、[5]、[6]、[7]、[8],但现有的多模态推理模型通常在生成推理结果时不会解释其背后的理由。因此,生成结果的可解释性较低,大大降低了这些模型的可信度,并限制了它们的应用范围。此外,现有模型常常受到虚假数据偏见的影响[9]、[10],可能无法真正捕捉多模态输入和输出之间的因果关系。
生物通微信公众号
知名企业招聘