通过多模态大型模型解锁对人类意图的感知

《Patient Education and Counseling》:Unlocking Human Intent Perception through Multimodal Large Models

【字体: 时间:2025年11月19日 来源:Patient Education and Counseling 3.1

编辑推荐:

  意图感知框架IntentMLM通过简化多模态大模型的文本解码器为线性层,结合图像生成文本描述和检索增强策略,显著提升意图识别性能,在Intentonomy数据集上F1值达56.93%。

  意图感知任务的目标是分析视觉环境并分类图像所表达的意图。与传统的分类任务不同,人类意图具有高度的主观性,受到物体与其周围环境之间相互作用的影响,这要求对这些相互作用有全面的理解。本文提出了一种名为IntentMLM的先进框架,用于意图感知任务,该框架利用了多模态大模型(MLMs)强大的表征能力。IntentMLM创新性地将MLMs中的文本解码器简化为一个线性层,从而将文本输出转化为意图感知评分。这种方法有效地利用了MLMs中嵌入的丰富知识,建立了一个简洁而高性能的意图感知基线。从架构上看,IntentMLM通过生成图像的文本描述来增强基于视觉的感知能力,从而捕捉到对多模态决策至关重要的复杂上下文线索。为了进一步丰富感知理解,我们引入了一种检索增强的感知策略,即在训练和测试阶段,IntentMLM从一个全面的示例语料库中检索相似的样本,从而促进更深层次、整体性的上下文理解。我们的框架在意图感知任务中展示了显著的提升,例如在Intentonomy数据集上,将Samples F1指标从49.75%(之前的SOTA)提升到了56.93%。IntentMLM为进一步探索MLMs提供了新的方向,并增强了从图像中推导整体见解的能力,以实现意图感知。

意图感知在自然图像中是一项具有挑战性的任务,旨在模拟人类分析上下文并识别图像中所描绘的潜在意图的能力。这项任务对于自动驾驶、机器人、安全系统等关键领域至关重要。尽管已有基于关节角度或人类之间交流模式的方法,但这些方法存在关键的局限性,例如忽视了环境语义,过度依赖于社交互动上下文。由于其能够全面分析物体与背景之间的相互作用,基于视觉上下文的方法逐渐成为意图感知研究的热点。

如图1(a)所示,传统的图像识别方法遵循标准的视觉分类范式,主要关注于预测图像中的物体及其对应的标签,建立图像与语义概念之间的对应关系。它们通常强调对特定物体类别的分类和定位。然而,从图像中推断人类意图需要更加细致的方法,这种方法超越了单纯的物体分类,考虑了多个元素之间的复杂相互作用,如前景与背景、物体与上下文,类似于人类对图像的上下文理解能力。如图1(b)所示,在一个宁静的户外环境中有草地的情况下,“人”和“狗”之间的互动可以推断出诸如“相爱的动物”和“交流”等意图。这种感知方式与人类对图像的理解方式相似。此外,即使相同的物体类别,根据上下文的不同,也可能传达不同的意图,例如在恶劣的荒野环境中,“人”和“狗”共同出现可能暗示“冒险”的意图。这些场景突显了传统图像识别方法在处理意图感知任务时的局限性,特别是它们无法应对人类意图所固有的主观性和模糊性。因此,如图1的右侧面板所示,这些方法在意图感知任务中的表现不佳。

Intentonomy引入了一种在弱监督定位框架中利用标签信息辅助模型的方法,以应对这些挑战。PI-PNet开发了一种学习和更新不同类别代表性原型的方法,引导模型减少意图感知中的同类多样性与异类相似性。CPAD将视觉意图理解重新定义为一个分层分类问题,使视觉和标签信息在不同粒度水平上对齐。HLEG提出了一种可学习的标签嵌入方法,结合累积的标签分组,以建立标签与类别的联系,从而减少标签的模糊性。尽管这些方法在一定程度上缓解了意图感知中的模糊性并取得了性能提升,但它们仍然强调关注物体本身,未能充分利用图像中所包含的全面线索。

基础模型在大量语料库上进行预训练,具有丰富的先验知识,并表现出优越的全局注意力机制,为意图感知任务提供了坚实的基础。基于多模态大模型(MLMs)跨模态对齐所赋予的稳健表征能力,我们提出了一种新的意图感知框架IntentMLM。如图3(a)所示,我们将MLMs中的文本解码器简化为一个简单的线性层,该层能够直接从图像输入预测意图感知评分。这种转变简化了输出过程,为意图感知任务建立了一个高性能的基线,有效地利用了MLMs中嵌入的内在知识。

虽然像Intentonomy这样的研究通过利用文本信息在意图感知任务中取得了良好的性能,但独立的标签文本往往缺乏上下文细节和背景描述。为了解决这一限制,我们通过为所有图像生成全面的文本描述来增强模型的能力,如图3(b)所示。这种增强使得我们的框架能够纳入丰富的文本层面线索,从而加深其对准确意图感知所必需的复杂上下文语义的理解。

为了进一步优化模型的感知能力,我们引入了一种检索增强的感知策略。意图感知任务通常涉及相似物体在不同上下文中代表不同意图的场景。为了解决这一挑战,如图3(c)所示,我们的框架在训练和测试阶段,从一个动态更新的示例语料库中检索相似的样本。通过整合这些检索到的样本中的视觉标签和描述信息,我们的模型获得了额外的上下文线索,丰富了其理解能力,并减少了意图感知任务中的固有模糊性。

我们提出了一种新的框架IntentMLM,以利用MLMs的表征能力,为意图感知任务开辟新的研究方向。我们进行了一系列的技术创新,以充分发挥MLMs的潜力,例如文本解码器的简化、文本描述的整合以及检索增强的感知策略。基于这些技术,我们简化了意图感知的过程,捕捉了细微的细节,并减少了意图感知的模糊性。

为了验证所提出框架的有效性,我们进行了全面的实验。实验结果表明,IntentMLM在所有现有方法中取得了最佳性能,为意图感知任务设立了新的基准。在测试阶段,我们从全面的示例语料库中检索出与输入图像最相似的k张图像(k设为3),作为模型的补充输入。如图9所示,我们首先报告了测试图像在真实类别上的置信度评分,然后展示了检索到的图像及其对应的描述。我们的方法实现了正确的检索,检索到的图像为原始图像的意图感知提供了充分的支持。

在本文中,我们提出了IntentMLM,这是一种利用多模态大模型和设计检索增强的感知策略,用于推断自然图像中的人类意图的新型框架。我们逐步探索这一任务,从较为简单的方法开始,逐步增加模型的复杂性,以实现最佳性能。最初,我们利用多模态大模型强大的表征能力,专注于处理视觉模态。通过生成图像的文本描述,我们能够捕捉到对意图感知至关重要的复杂上下文线索。同时,通过引入检索增强的策略,我们能够从语料库中获取额外的上下文信息,进一步提升模型的理解能力。实验结果表明,IntentMLM在多个数据集上均表现出优异的性能,为意图感知任务提供了新的解决方案。通过这些创新,我们不仅提升了模型的准确性,还增强了其在实际应用中的鲁棒性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号