人类能够基于少量示例,在已有知识的基础上学习新概念。受此启发,零样本学习(ZSL)(Lampert, Nickisch, & Harmeling, 2009a; Zhang et al., 2024; Niu, Shang, Zhou, & Yang, 2024)通过将已见类别的知识转移到未见类别上来实现未见类别的识别。在此过程中,语义信息起着至关重要的作用,因为它为描述已见和未见类别提供了一个共同的空间。为此,通常会利用类别级属性(Lampert, Nickisch, & Harmeling, 2009b)或文本描述(Lei Ba, Swersky, Fidler et al., 2015; Reed, Akata, Lee, & Schiele, 2016),从而在各种基准测试中取得了显著的进展。
尽管取得了这些进展,ZSL仍然面临一个核心挑战:如何有效减少语义表示与视觉特征空间之间的差异。早期的基于嵌入的方法(Akata, Perronnin, Harchaoui, & Schmid, 2013; Akata, Reed, Walter, Lee, & Schiele, 2015; Xian et al., 2016; Xu, Xian, Wang, Schiele, & Akata, 2020)通常使用预训练的模型(如卷积神经网络(CNN)或视觉变换器(ViTs)来提取视觉特征,并将类别属性嵌入到视觉图像中。这些方法旨在将全局视觉特征与相应的类别原型对齐(Zhang, Xiang, & Gong, 2017a)。最近,预训练的ViTs被用作视觉特征提取器(Chen et al., 2023; Naeem, Xian, Gool, & Tombari, 2022),由于它们具有更强的特征表示能力和捕捉图像中长距离依赖性的能力,因此在性能上优于基于CNN的方法。基于变换器的模型通过自注意力机制捕捉全局结构,为ZSL提供了新的途径。然而,这些模型由于训练过程中缺乏显式的语义注入,仍然存在语义对齐不足的问题。
为了解决这一限制,最近的研究提出了将类别级语义信息注入视觉编码器的方法。视觉-语义互适应网络(Liu et al., 2023)采用双变换器模块来减少语义歧义并提高迁移能力,而语义引导的视觉变换器(Chen, Hou, Khan, & Khan, 2024)学习对齐的视觉-语义对应关系,以实现更有效的ZSL交互。这些方法逐步将类别级语义嵌入到ViTs的不同层中,增强了视觉表示的语义意识并提高了其区分能力。因此,它们在一定程度上弥合了视觉特征与语义表示之间的模态差异。然而,类别级语义信息往往无法捕捉到实例间的细微差异,尤其是在类别内部多样性较高的情况下。随着多模态大型语言模型(MLLM)的出现,现在可以生成丰富的、实例特定的文本描述。在这项工作中,我们通过实例感知的视觉-语义交互(IVIS)实现了这一目标,该框架旨在通过实例级别的语义监督明确缩小模态差异。IVIS通过两种关键机制实现这一目标:首先,实例级别语义表示的跨模态对齐直接减少了模态间的不一致;其次,可学习的引导令牌聚合了视觉-语义信息,然后对视觉特征进行通道级调制,以实现更精确和可解释的自适应融合。结合相对位置感知的变换器,IVIS明确模拟了视觉部分和语义部分之间的方向性空间关系,从而捕捉到对齐令牌之间的细粒度空间依赖性。
我们的主要贡献可以总结如下:(1)我们提出了一个名为实例感知的视觉-语义交互(IVIS)的新框架,实现了从全局、类别对齐的原型向多实例、基于空间的监督的根本转变。(2)通过利用实例级别语义而非传统的类别级别语义来设计跨模态对齐,IVIS明确缩小了模态差异。(3)基于全局模态对齐,IVIS中的可学习引导令牌促进了通道级交互,实现了自适应融合。