通过按需视觉增强提升文本问答能力

《ACM Transactions on Multimedia Computing, Communications, and Applications》:Elevating Textual Question Answering with On-Demand Visual Augmentation

【字体: 时间:2025年11月07日 来源:ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐:

  <摘要> 本文提出了一种基于视觉锚定的外部知识增强型文本问答模型OD-TQA,通过动态检索和融合图像信息提升问答准确率。模型创新性地整合了文本编码器(如RoBERTa、DeBERTa)与视觉编码器(ResNet50),利用多图像注意力机制动态加权图像信息,并设计基于Google图像搜索的模块化检索流程。实验表明,OD-TQA在QASC和MultiRC数据集上达到89.98%和58.23%的准确率,显著优于仅文本的基线模型,且参数量仅为11B级大模型的3.3%。可视化分析(LIME)证实模型能有效聚焦问题相关图像区域,尤其在气候、海洋生物等需要视觉关联的问答任务中表现突出。

  在文本问答(Textual Question Answering, TQA)领域,尽管过去十多年的研究已经取得了显著进展,但仍然存在许多挑战。传统上,TQA模型主要依赖于文本信息,通过自然语言处理技术来提取答案。然而,随着人工智能的发展,特别是Transformer网络和预训练模型的引入,这一领域的进展有了质的飞跃。尽管如此,一个被忽视的重要环节是外部视觉信息的整合。在本研究中,我们提出了一种新颖的TQA方法,称为“按需文本问答”(On-Demand Textual Question Answering, OD-TQA),通过引入按需视觉基础,提升机器对问题的理解能力,从而增强答案的相关性和准确性。

OD-TQA的核心理念是将文本信息与视觉信息相结合,通过从互联网上获取与问题相关的图片,为模型提供额外的上下文。这种方法不仅能够帮助模型更好地理解问题,还能够在生成答案时,利用视觉信息提高判断的准确性。我们设计了多种多媒体模型配置,并展示了其不仅在不需要预训练的情况下超越了现有的系统,还能够达到与经过精细调整的模型(参数数量为其30倍)以及封闭源的大型语言模型(如GPT-4o)相当的性能水平。这一结果证明了OD-TQA在提升问答系统性能方面的效率和实用性。

此外,我们进行了可解释性分析,揭示了视觉基础在模型决策过程中的重要作用。这一研究为自然语言处理和人工智能领域提供了新的视角,展示了通过视觉基础来增强TQA性能的潜力。本研究的贡献主要体现在三个方面:首先,引入了OD-TQA,这是一种能够通过按需视觉基础提升文本理解的新问答模型;其次,设计并评估了多种有效整合视觉和文本信息的架构,这些架构无需大量预训练即可实现高效的问答处理;第三,开发了多种处理多图像的方法,使模型能够有效整合多个图像,以提高问答的准确性。

OD-TQA模型的构建包括四个关键部分:信息检索系统、文本编码器、视觉编码器和答案分类器。信息检索系统用于获取与问题相关的句子和图像,文本编码器处理文本数据,视觉编码器将图像转换为向量表示,答案分类器则根据问题、检索到的文本和图像来判断答案的正确性。在信息检索过程中,我们采用了多步骤的方法,包括使用Alignment-Based Iterative Retriever(AIR)进行事实检索、提取关键词以及通过网络进行图像检索。这种方法确保了模型能够获取到最新且与问题相关的视觉信息,从而辅助问答过程。

在文本编码器的选择上,我们主要使用了RoBERTa、BERT和DeBERTa等文本编码模型。这些模型通过细粒度的微调,使得它们能够更好地理解与问题相关的文本内容。为了处理多个图像,我们开发了三种不同的方法:平均、拼接和注意力机制。这些方法在实验中被评估和比较,其中注意力机制表现最佳,因为它能够根据图像内容选择合适的权重,从而生成更高质量的向量表示。这种方法不仅提高了模型的准确性,还增强了其对图像内容的理解能力。

在答案分类阶段,我们采用了两种主要方法:余弦相似度和注意力机制。余弦相似度用于评估图像向量表示之间的相似性,而注意力机制则用于构建跨模态的表示,使模型能够更全面地理解问题和答案之间的关系。这些方法的结合使得OD-TQA模型能够更有效地进行答案分类,从而提高整体的问答性能。

为了验证OD-TQA的有效性,我们进行了广泛的实验和基准测试。在QASC和MultiRC数据集上,我们比较了OD-TQA模型与其他SOTA方法的性能。结果显示,OD-TQA模型在多个指标上均优于现有的文本编码器模型,甚至在某些情况下达到了与大型模型相当的水平。此外,我们还评估了模型在不同图像搜索引擎上的表现,发现OD-TQA在使用Bing图像搜索时的性能略优于Google图像搜索,但两者都表现出良好的泛化能力。

通过可解释性分析,我们进一步探讨了OD-TQA模型的决策机制。使用Local Interpretable Model-Agnostic Explanations(LIME)方法,我们发现模型在处理MCQA任务时,会更倾向于依赖文本编码器的信息,但在文本编码器不确定的情况下,模型会更多地依赖视觉信息。这些发现表明,OD-TQA模型能够灵活地结合文本和视觉信息,从而在不同的情况下做出最佳决策。

尽管OD-TQA模型在多个方面表现出色,但仍然存在一些局限性。首先,我们的按需图像检索系统依赖于Google搜索的性能,而Google搜索的算法可能会随时发生变化,从而影响我们的结果。其次,由于Google搜索是一个“黑箱”系统,我们无法完全理解其运作机制,因此难以评估图像检索的质量。此外,虽然我们依赖Google搜索作为免费、按需和便捷的图像来源,但这种方法可能存在潜在的偏差和不准确性。

总的来说,OD-TQA模型通过整合视觉信息,显著提升了文本问答系统的性能。其设计不仅考虑到了模型的效率和可扩展性,还通过可解释性分析,增强了模型的透明度和可信度。这一研究为自然语言处理和人工智能领域提供了新的思路,展示了视觉基础在提升模型理解能力方面的潜力。未来的工作将集中在扩展OD-TQA模型的应用范围,使其能够适应更广泛的问答任务,包括开放式问答和提取式问答。此外,我们还计划探索模型在预训练阶段内部化“想象”能力的可能性,使其能够独立处理未来的任务,而不依赖于外部的图像增强。这些努力将使OD-TQA模型在自然语言处理和人工智能领域发挥更大的作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号