《Pattern Recognition》:Beyond Similarity: Mutual Information-Guided Retrieval for In-Context Learning in VQA
编辑推荐:
视觉问答中的上下文学习依赖多模态特征相似性检索,但相似性与指导效果不匹配且忽略跨模态交互。本文提出互信息引导检索(MIGR)模型,通过标注5%数据集的ICD质量分数,训练模型最大化查询与ICD之间的多模态互信息,解决传统方法仅基于单模态相似性的局限。实验证明MIGR在VQA任务中显著优于相似性检索方法,其核心是构建分层负采样策略和基于互信息的联合损失函数。
张俊|吕泽忠|赵健|王燕|张天乐|袁宇辰|姜宇初|张驰|任文琦|李学龙
中国科学院信息工程研究所,中国北京市海淀区曙光路19号,100085
摘要
视觉问答(VQA)是一项具有挑战性的多模态任务。上下文学习(ICL)通过检索与给定查询相似的图像-文本对,显示出提高预训练模型泛化能力的潜力。然而,现有方法忽略了两个关键问题:i) 上下文演示(ICD)在引导预训练模型方面的有效性并未严格依赖于特征相似性;ii) 作为涉及视觉和语言的多模态任务,VQA需要同时对视觉和文本模态有深入的理解,而当检索基于单一模态时,这很难实现。为了解决这些限制,我们提出了一种新的基于互信息的检索(MIGR)模型。具体来说,我们用VQA性能为数据集的一小部分(5%)标注ICD质量分数,并训练模型以最大化每个查询与其对应的高质量ICD之间的多模态互信息。这使得模型能够捕捉到超出特征级别相似性的更复杂关系,从而在ICL中实现更好的泛化能力。广泛的实验表明,我们的基于互信息的检索策略在VQA任务中的表现显著优于传统的基于相似性的检索方法。
引言
视觉问答(VQA)[1]是多模态学习领域中一个基础且极具实用性的任务。它要求模型同时处理视觉和文本信息,因此比基于单一模态的任务复杂得多。尽管大型视觉-语言模型(LVLMs)[2]、[3]在各种视觉-语言任务中表现出色,但当直接应用于零样本设置[4]、[5]时,它们在VQA上的表现往往不尽如人意。这主要是由于VQA需要模态之间的复杂对齐模式和细粒度理解[6]。
上下文学习(ICL)[7]、[8]为这一挑战提供了一个有前景的解决方案。通过检索相关示例(称为上下文演示(ICD)并将它们与查询一起呈现在提示中,LVLMs可以在不需要对LVLM本身进行微调的情况下,在VQA等下游任务中表现得更好[9]、[10]。然而,一个关键且未被充分探索的问题是:哪种类型的检索到的ICD最能有效引导模型生成正确答案?
现有的检索策略通常依赖于测量查询和支持集之间的相似性——无论是视觉相似性还是文本相似性[11]、[12]。这些方法假设更高的相似性会带来更好的性能,因此选择在特征空间上与查询接近的上下文。然而,在实践中,相似性与ICD有效性之间的关系更为复杂且尚未得到充分研究。特别是对于VQA来说,由于它本质上涉及多模态推理,单一模态的相似性指标往往无法准确反映ICD在指导模型推理过程中的真正价值[13]、[14]。如图1(a)所示,给定一个查询时,广泛使用的图像相似性检索返回的内容在视觉上与查询相似,但无法有效帮助LVLMs回答VQA任务。即使使用图像-文本多模态相似性检索,即使图像和问题都与查询高度相似,也可能导致幻觉错误,即LVLMs似乎只是复制了ICD的答案。
相比之下,我们提出选择那些在视觉上与查询不相似但能成功避免这种幻觉并实现准确答案的ICD。其背后的理由是,尽管相似的ICD可能包含更多潜在信息(如图1(b)中查询和ICD之间的重叠所示),但ICD的有用性最终取决于任务(VQA)和基础模型(LVLMs)。因此,真正有用的信息在于查询、ICD和LVLMs/VQA之间的交集,如图1(b)中的红色框所示。总之,即使采用诸如先图像后查询、先查询后图像[11]的策略,或在计算相似性之前连接图像和查询特征的方法,这些浅层的多模态检索方法仍然无法模拟示例内的跨模态交互。从根本上说,它们仍然是嵌入空间中的最近邻搜索,这并不一定适合上下文学习。
为了克服特征相似性的局限性,最近的一些先进框架转向了基于学习的优化方法。例如LIVE[15]用学习到的潜在向量替换了离散示例,而生成方法如LEVER-LM[16]和SabER[4]利用辅助模型自回归地规划演示序列。虽然这些方法有效,但它们往往从根本上改变了ICL的范式,以不透明的潜在嵌入换取了离散示例的透明度,或者通过复杂的生成搜索导致较高的推理延迟。因此,仍然迫切需要一种既能保持标准示例选择的效率性和可解释性,又能严格捕捉演示任务特定效用的检索机制。
为了解决这些限制,我们提出了基于互信息的检索(MIGR)模型,这是一种专为VQA中的上下文学习量身定制的新检索框架。具体来说,我们首先随机选择一小部分数据实例。对于该子集中的每个查询,我们构建一个小的候选支持集。支持集中的每个ICD都与查询配对并输入LVLMs进行推理,然后使用性能为每个ICD分配一个质量分数。通过这个过程,我们识别出真正帮助LVLMs回答问题的ICD,以及那些无用甚至具有误导性的ICD。基于这些注释,我们设计了一个多层次的损失函数来训练MIGR中的互信息估计网络。在我们的设置中,查询及其高质量ICD的对被视为正样本,而各种类型的负样本则是使用分层负采样策略构建的。一旦训练完成,MIGR模型就可以估计查询与支持集中的候选ICD之间的互信息,从而检索出更有信息量和效果的ICD来指导LVLMs的推理过程。
我们的主要贡献有三个方面:
- 我们发现了当前ICL检索机制中的两个关键挑战:相似性与ICD质量之间的差距,以及缺乏跨模态交互。为了解决这两个问题,我们提出了基于互信息的检索(MIGR)模型,该模型在统一的轻量级框架中有效克服了这些限制。
- 我们引入了一种低成本的互信息估计和最大化方法,包括高效的数据集构建和分层训练目标。值得注意的是,我们的方法在不进行任何骨干编码器微调的情况下,仅依靠最少的注释和轻量级架构,就实现了令人印象深刻的泛化性能。
- 通过广泛的实验,我们证明了MIGR通过实现更有效的ICD选择来显著提高VQA性能,从而改善了上下文学习的效果。我们的结果强调了超越特征相似性,关注查询和ICD之间更深层次的多模态对齐的重要性。
相关工作
概述
ICL作为一种变革性的范式,重新定义了大规模模型如何适应新任务[17]、[18]。与传统的微调不同,ICL允许模型通过条件化其输入来执行新任务,这些输入是以提示形式直接提供的少数示例(称为演示)[19]。这种“从类比中学习”的机制无需训练即可实现,显著降低了计算成本。
重新思考上下文学习中的检索
在本节中,我们正式介绍了ICL中的VQA设置,包括基本组件和检索过程的明确定义。
VQA任务的目标是,给定一个图像-问题对(I, Q),预测正确答案A。在ICL设置下,模型在推理过程中不会更新其参数。相反,它依赖于一组K个ICD来指导其预测。这些ICD是从更大的支持集中检索到的
实验
本节通过实证验证了我们提出的基于互信息的检索(MIGR)模型的有效性。我们首先概述了全面的实验设置,然后展示了主要比较结果,证明MIGR在性能上显著优于传统的基于相似性的检索方法。最后,我们提供了一系列深入的消融研究和鲁棒性分析,以验证我们模型的一些关键设计选择和稳定性。
结论
在这项工作中,我们从理论上论证并从实证上证明了对于像VQA这样的复杂多模态任务,基于相似性的检索策略往往会导致次优的检索和推理不对齐。为了弥合这一差距,我们引入了基于互信息的检索(MIGR)模型,该模型通过严格量化查询和演示之间的信息论依赖性,超越了表面层次的匹配。
CRediT作者贡献声明
张俊:撰写——原始草稿,验证,数据管理,概念化。
吕泽忠:撰写——审阅与编辑,撰写——原始草稿,可视化,方法论,调查,形式分析,数据管理。
赵健:撰写——审阅与编辑,资源管理,调查,资金获取,概念化。
王燕:撰写——审阅与编辑,可视化,验证。
张天乐:撰写——审阅与编辑,验证,监督。
袁宇辰:撰写——审阅与
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
本工作部分得到了国家自然科学基金(项目编号62322216)、深圳市科技计划(项目编号RCXYX20221008092849068)和中山大学基本研究基金(项目编号23lgbj015)的支持。