在视觉-语言模型中使用结构化压缩提示进行微细图像识别训练

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Structured-Condensed Prompt Tuning in Vision-Language Models for Fine-grained Image Recognition

【字体：大中小】 时间：2026年03月27日 来源：Pattern Recognition 7.6

编辑推荐：

　　细粒度图像识别中，传统视觉语言模型（如CLIP）因忽略类间语义关系导致细粒度分类效果受限。本文提出结构化压缩提示调优（SCPT），通过语义关系编码（SRE）显式建模类间拓扑关系，利用结构化标签嵌入捕获层次化依赖，同时设计语义压缩损失（ScLoss）抑制冗余监督信号。实验表明SCPT在14个细粒度基准测试中均达到SOTA性能，尤其在少样本学习（平均提升6.2%）和基类到新类泛化（跨域准确率提升9.8%）场景优势显著。

Xinda Liu|Qinyu Zhang|Weiqing Min|Guohua Geng|Shuqiang Jiang

中国陕西省西安市西北大学信息科学与技术学院，邮编710127

摘要

细粒度图像识别面临重大挑战，因为手动标注需要大量的专业知识和努力。像CLIP这样的视觉语言模型（VLMs）提供了一种有吸引力的零样本替代方案，减少了对大量标注数据的依赖。然而，它们捕捉细微差异的能力仍然有限，导致识别性能不佳。虽然提示调优已被证明对适应VLMs有效，但大多数现有方法将类别标签视为孤立的、离散的实体，忽略了它们之间丰富的语义关系。这种过于简化的假设限制了模型捕捉层次依赖性和类别间相关性的能力——这对于区分视觉上相似的类别至关重要。在细粒度分类中，这个问题尤为突出，因为准确的识别依赖于对复杂标签语义的理解。为了解决这个问题，我们提出了结构化压缩提示调优（SCPT），它增强了提示学习中的语义结构建模。具体来说，我们引入了语义关系编码（SRE）来明确建模类别间的语义拓扑，并编码结构化的标签关系。同时，我们设计了语义压缩损失（ScLoss）来抑制冗余的监督信息，并从全局语义空间中提取区分性成分。这些组件共同显著提高了语义对齐和细粒度区分能力。在14个细粒度基准测试上的广泛实验表明，SCPT有效缓解了语义歧义，并在少样本和新任务泛化设置中取得了最先进的性能。

引言

细粒度图像识别（FGIR）在需要精确区分视觉上相似的子类别的场景中起着关键作用，例如丰富的图像字幕[1]、[2]、[3]、图像生成[4]、[5]、食物识别[6]、[7]、[8]以及食物推荐[9]、[10]。其核心挑战在于需要专家级别的标注精度，这需要对细微的视觉差异有深刻的理解，通常需要特定领域的知识[11]。获取这种人工专家标注的巨大成本已成为一个关键瓶颈，从根本上限制了FGIR系统在新领域的发展。

视觉语言模型（VLMs），如CLIP，通过利用大规模网络数据进行零样本学习，提供了一种有前景的解决方案，从而减少了对大量手动标注的依赖[12]。CLIP采用对比学习来对齐文本和图像表示，使得无需特定任务的训练即可进行类别分类。尽管VLMs在广泛类别中表现出强大的泛化能力，但在细粒度识别场景中，这一优势明显减弱，主要是因为模型在辨别细微的类别间变化方面的能力有限。

提示调优通过调整特定任务的提示来更好地利用视觉语言模型（VLMs）中的潜在知识，从而在下游任务中实现强大的性能。它分为两类：视觉提示调优和文本提示调优，后者通过优化文本输入来提高与视觉表示的对齐度。在这项工作中，我们专注于文本提示调优，不修改视觉编码器。文本提示调优用可学习的上下文向量[13]、[14]替代了静态模板，这些向量通过一小部分训练样本动态优化，从而缓解了数据稀缺的限制。

然而，现有的提示调优方法将类别标签视为独立的、离散的实体，未能利用它们之间丰富的语义关系。这种过度简化限制了模型捕捉层次依赖性和类别间相关性的能力，这对于区分视觉上相似的类别至关重要。在细粒度分类中，这一挑战尤为明显，因为有效的识别依赖于对标签关系背后复杂语义结构的理解。

我们通过引入结构化压缩提示调优（SCPT）来解决这一限制，它在CoOp风格的提示调优框架内构建了一种结构感知的语义对齐机制。SCPT不是依赖于离散的类别标记，而是将语义关系编码（SRE）嵌入到提示空间中，通过成对的关系距离保留了标签之间的全局语义拓扑，如图1（c）所示。这使得视觉语言模型能够对结构化的类别表示进行推理，每个类别嵌入明确编码了它与其他类别在共享嵌入空间中的语义关系，而不是记忆断开的标签。我们进一步提出了语义压缩损失（ScLoss）来通过抑制类别内噪声和放大对分类至关重要的区分性线索来增强语义焦点。SRE和ScLoss共同构成了一个统一的框架，既捕捉了类别间结构，也增强了类别内的焦点，提高了少样本适应性和新任务泛化能力。实验结果表明，SCPT在少样本学习和新任务泛化方面始终优于最先进的提示调优方法。

总之，本文的主要贡献如下：

(1) 我们提出了一种结构感知的提示调优方法——结构化压缩提示调优（SCPT），它增强了视觉语言模型在FGIR中的语义结构建模。这种方法明确捕捉了类别间的语义关系，提高了模型区分视觉上相似类别之间细微差异的能力。

(2) 我们提出了SRE来通过编码结构化的标签关系来建模类别间的语义拓扑。这种方法利用成对的关系距离来保留全局语义结构，使模型能够更好地理解类别间的层次依赖性和相关性。

(3) 我们设计了ScLoss来抑制冗余的监督信号并从全局语义空间中提取区分性成分。这个损失函数增强了模型对任务相关语义的关注，提高了少样本适应性和对新类别的泛化能力。

(4) 我们在14个不同的FGIR基准测试上进行了广泛实验。SCPT的表现优于现有的提示调优方法，在少样本学习和新任务泛化任务中取得了显著的提升，建立了该领域的新最佳水平。

章节片段

视觉语言模型（VLMs）

像CLIP [12]、ALIGN [15]和BLIP [16]这样的VLMs利用大规模的图像-文本数据集，实现了比传统单模态模型更强的区分能力和泛化能力。通过自我监督学习对齐视觉和文本信息，这些模型在零样本任务中表现出色，并将它们学到的表示转移到下游应用中，如图像检索[17]、[18]、图像分割[19]和视觉问答[21]。尽管CLIP已经展示了

方法

所提出的方法基于这样一个观察：在提示模板中使用孤立的、离散的类别标签进行提示调优，未能充分利用这些标签中固有的丰富语义信息。这一缺点在细粒度图像识别任务中尤为明显。为了解决这个问题，我们引入了结构化压缩提示调优（SCPT），它通过结合语义关系编码（SRE）来增强细粒度标签提示的语义表达能力

实验

为了评估所提出方法的有效性，我们在一系列下游任务上进行了标准测试，包括少样本实验、新任务泛化和消融研究。

局限性

虽然我们提出的框架在基于文本的提示学习中表现出很强的有效性，但仍存在一些局限性。首先，我们的方法仅关注文本提示，没有结合可学习的视觉提示。最近的工作如MaPLe [22]和PromptSRC [23]表明，联合优化文本和视觉提示可以在某些场景中进一步提高适应性和泛化能力。将SCPT扩展到多模态提示学习框架可能会提供额外的

结论

本研究从结构角度重新审视了细粒度识别的提示调优，并认为将类别提示视为孤立标记从根本上限制了视觉-语言模型区分细微类别间差异的能力。为了解决这个问题，我们提出了结构化压缩提示调优（SCPT），它将全局语义结构明确纳入文本提示学习中。通过引入语义关系编码（SRE），SCPT捕捉了类别间

CRediT作者贡献声明

Xinda Liu：撰写——原始草稿，概念化。Qinyu Zhang：撰写——审阅与编辑，撰写——原始草稿，概念化。Weiqing Min：撰写——审阅与编辑，方法论。Guohua Geng：可视化，资金获取。Shuqiang Jiang：项目管理，资金获取。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

章节片段

视觉语言模型（VLMs）

方法

实验

局限性

结论

CRediT作者贡献声明

利益冲突声明

热点排行