基于实例感知的视觉语义交互技术，用于零样本学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Instance-Aware Visual-Semantic Interaction for Zero-Shot Learning

【字体：大中小】 时间：2026年02月16日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　零样本学习中的模态差距问题通过实例级语义监督得到解决，IVIS框架利用多模态大语言模型生成实例文本描述，结合跨模态实例对齐和可学习指导令牌机制，实现视觉特征与语义的精细交互，有效缩小模态差距。

陈永才|张庆华|史新发|杜英军|张磊

中国茂名市，广东石油化工技术学院，525000

摘要

零样本学习（ZSL）的核心挑战是模态差异——即视觉特征与语义表示之间的不匹配。尽管先前的研究试图通过将类别级语义整合到视觉编码器中来弥合这一差异，但由于缺乏实例级别的指导，这些方法的效果有限。为了克服这一问题，我们提出了实例感知的视觉-语义交互（IVIS）框架，该框架旨在提供细粒度的、实例级别的监督。与类别级方法不同，IVIS使用多模态大型语言模型为每个实例生成详细的语义表示，引导视觉特征朝向具有区分性的语义，并直接解决模态差异问题。具体而言，IVIS结合了两种新颖的机制来支持更深入的视觉-语义整合：实例级别的跨模态对齐和可学习的引导令牌，后者将视觉-语义信息融合到视觉特征的通道级调制中。我们的方法实现了丰富的、上下文感知的语义监督，为视觉表示提供了细粒度、实例级别的指导。广泛的实验证实，IVIS显著减轻了模态差异，凸显了其在提升ZSL性能中的关键作用。

引言

人类能够基于少量示例，在已有知识的基础上学习新概念。受此启发，零样本学习（ZSL）（Lampert, Nickisch, & Harmeling, 2009a; Zhang et al., 2024; Niu, Shang, Zhou, & Yang, 2024）通过将已见类别的知识转移到未见类别上来实现未见类别的识别。在此过程中，语义信息起着至关重要的作用，因为它为描述已见和未见类别提供了一个共同的空间。为此，通常会利用类别级属性（Lampert, Nickisch, & Harmeling, 2009b）或文本描述（Lei Ba, Swersky, Fidler et al., 2015; Reed, Akata, Lee, & Schiele, 2016），从而在各种基准测试中取得了显著的进展。

尽管取得了这些进展，ZSL仍然面临一个核心挑战：如何有效减少语义表示与视觉特征空间之间的差异。早期的基于嵌入的方法（Akata, Perronnin, Harchaoui, & Schmid, 2013; Akata, Reed, Walter, Lee, & Schiele, 2015; Xian et al., 2016; Xu, Xian, Wang, Schiele, & Akata, 2020）通常使用预训练的模型（如卷积神经网络（CNN）或视觉变换器（ViTs）来提取视觉特征，并将类别属性嵌入到视觉图像中。这些方法旨在将全局视觉特征与相应的类别原型对齐（Zhang, Xiang, & Gong, 2017a）。最近，预训练的ViTs被用作视觉特征提取器（Chen et al., 2023; Naeem, Xian, Gool, & Tombari, 2022），由于它们具有更强的特征表示能力和捕捉图像中长距离依赖性的能力，因此在性能上优于基于CNN的方法。基于变换器的模型通过自注意力机制捕捉全局结构，为ZSL提供了新的途径。然而，这些模型由于训练过程中缺乏显式的语义注入，仍然存在语义对齐不足的问题。

为了解决这一限制，最近的研究提出了将类别级语义信息注入视觉编码器的方法。视觉-语义互适应网络（Liu et al., 2023）采用双变换器模块来减少语义歧义并提高迁移能力，而语义引导的视觉变换器（Chen, Hou, Khan, & Khan, 2024）学习对齐的视觉-语义对应关系，以实现更有效的ZSL交互。这些方法逐步将类别级语义嵌入到ViTs的不同层中，增强了视觉表示的语义意识并提高了其区分能力。因此，它们在一定程度上弥合了视觉特征与语义表示之间的模态差异。然而，类别级语义信息往往无法捕捉到实例间的细微差异，尤其是在类别内部多样性较高的情况下。随着多模态大型语言模型（MLLM）的出现，现在可以生成丰富的、实例特定的文本描述。在这项工作中，我们通过实例感知的视觉-语义交互（IVIS）实现了这一目标，该框架旨在通过实例级别的语义监督明确缩小模态差异。IVIS通过两种关键机制实现这一目标：首先，实例级别语义表示的跨模态对齐直接减少了模态间的不一致；其次，可学习的引导令牌聚合了视觉-语义信息，然后对视觉特征进行通道级调制，以实现更精确和可解释的自适应融合。结合相对位置感知的变换器，IVIS明确模拟了视觉部分和语义部分之间的方向性空间关系，从而捕捉到对齐令牌之间的细粒度空间依赖性。

我们的主要贡献可以总结如下：（1）我们提出了一个名为实例感知的视觉-语义交互（IVIS）的新框架，实现了从全局、类别对齐的原型向多实例、基于空间的监督的根本转变。（2）通过利用实例级别语义而非传统的类别级别语义来设计跨模态对齐，IVIS明确缩小了模态差异。（3）基于全局模态对齐，IVIS中的可学习引导令牌促进了通道级交互，实现了自适应融合。

提出方法

定义首先定义ZSL的符号和问题设置。设C^s和C^u分别表示已见类别和未见类别的集合。训练集表示为

D^{s} = {(x_{i}^{s}, y_{i}^{s}, a_{i}^{s}, t_{i}^{s})}

，其中

x_{i}^{s} \in X^{s}

表示第个输入图像， $y_{i}^{s} \in Y^{s}$ 表示相应的第个标签， $a_{i}^{s} \in A^{s}$ 表示第个类别属性， $t_{i}^{s} \in T^{s}$ 表示第个实例级别的文本描述。类似地，未见类别的测试集由 $D^{u} = {(x_{i}^{u}, y_{i}^{u}, a_{i}^{u}, t_{i}^{u})}$

实验设置

基准数据集我们在三个流行的ZSL基准数据集上进行了广泛实验，以评估IVIS的性能，即CUB（Wah, Branson, Welinder, Perona, & Belongie, 2011）和SUN（Patterson & Hays, 2012）作为细粒度数据集，以及AWA2（Xian, Schiele, & Akata, 2017）作为粗粒度数据集。具体来说，CUB包含11,788张图像，涵盖200个鸟类类别（已见/未见类别分别为150/50），并带有312个属性；SUN包含14,340张图像，涵盖717个场景类别（已见/未见类别分别为645/72）

结论

我们提出了IVIS，一个用于ZSL的实例感知视觉-语义交互框架，该框架利用细粒度的、实例级别的语义监督来指导视觉特征并缩小模态差异。通过结合实例级别的跨模态对齐和基于令牌的通道交互机制，以及利用相对位置感知的变换器，IVIS将实例级别的语义整合到视觉特征中，有效地引导它们变得具有实例感知能力。实验表明，我们的方法

局限性与未来工作

尽管IVIS在描述准确性和冗余性变化方面表现出较强的鲁棒性，但当前框架依赖于随机采样的实例级别提示，而没有明确建模它们的质量或互补性。在实践中，MLLM生成的描述可能包含冗余语义或偶尔的噪声/异常线索。结合考虑语义多样性的冗余感知采样，以及基于视觉-语义一致性的轻量级异常值或噪声剪枝，可以进一步

CRediT作者贡献声明

陈永才：概念化、研究方法、软件开发、验证、可视化、写作——原始草稿。张庆华：监督、写作——审稿与编辑。史新发：监督、写作——审稿与编辑。杜英军：研究方法、写作——审稿与编辑。张磊：监督、项目管理、资金获取、资源协调、写作——审稿与编辑。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：张磊报告获得了国家自然科学基金的支持；张磊还获得了广东省自然科学基金的支持；张磊还获得了茂名市科技专项基金的支持。作者声明没有其他

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关研究