将CLIP提示泛化用于零样本异常检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

将CLIP提示泛化用于零样本异常检测

《Pattern Recognition》：Generalizing CLIP Prompts for Zero-shot Anomaly Detection

【字体：大中小】 时间：2026年03月01日 来源：Pattern Recognition 7.6

编辑推荐：

　　零样本异常检测框架GenCLIP通过双分支策略平衡泛化与类别特异性，视觉增强分支利用多层CLIP特征提取细粒度异常，查询分支采用通用查询提示增强泛化，并引入自适应术语对齐优化文本图像对齐。

金东亨|朴彩元|赵秀焕|林贤贞|姜民硕|李俊浩|李相允

韩国首尔延世大学电气与电子工程学院

摘要

零样本异常检测（Zero-Shot Anomaly Detection, ZSAD）旨在利用CLIP等视觉-语言模型来检测未见类别中的异常，这些模型能够将图像与文本提示对齐。ZSAD面临的一个关键挑战是异常的多样性，这要求模型既具备类别无关的检测能力，又能敏感地识别特定类别的异常模式。为了解决这个问题，我们提出了GenCLIP，这是一个基于CLIP的框架，用于学习鲁棒的文本嵌入。GenCLIP通过结合两个分支进行推理：一个分支利用增强视觉的信息来检测特定类别的异常，另一个分支仅依赖通用查询提示（General Query Prompt, GQP）来实现鲁棒的泛化。为了进一步增强这种互补性，我们引入了多层视觉提示机制，在训练过程中将GQP与从低级纹理到高级结构的多层次CLIP视觉特征相结合。这种结合促使仅依赖查询的分支关注风格不变的语义，同时使增强视觉的分支能够利用特定层次的视觉线索进行更细粒度的区分。此外，我们还提出了一种自适应术语对齐机制，该机制会降低无信息量的文本术语的权重，从而使最终的视觉-语言对齐由有意义的提示组件驱动。

引言

异常检测（Anomaly Detection, AD）是一个关键的研究领域，它专注于识别图像中的异常模式并精确定位异常位置。该技术已广泛应用于各种领域，包括工业质量控制和医学成像。由于AD数据存在固有的不平衡性（异常图像远少于正常图像），因此人们探索了无监督方法。这些方法通常仅基于单一对象类别的正常样本进行训练。尽管包括PaDiM [1]、PatchCore [2]、FAPM [3]和SLSG [4]在内的单类别无监督AD方法表现出色，但它们在处理未见过的对象类别时效果不佳，这使得其通用应用变得困难。这一限制促使人们开展了少样本AD [5]、[6]、多类别AD [7] [8]以及零样本异常检测（ZSAD） [9] [10] [11] [12] [13] [14] [15] [16] 的研究。特别是ZSAD的需求日益增加，因为它可以广泛应用于各种数据集。ZSAD的目标是使用小型辅助数据集训练模型，并使其能够检测训练数据中未出现的对象类别的异常。在标记异常数据不可用的实际场景中，这一能力具有重要的实用价值。

最近，视觉-语言模型（Vision-Language Models, VLMs）[17] [18]，如CLIP [18]，因其强大的泛化能力而成为ZSAD的基础框架。这些模型在多样化的图像-文本对数据集上经过对比训练，能够提取跨领域的强大特征。WinCLIP [10] 是一项开创性的工作，它直接计算了CLIP视觉特征与从输入图像和众多固定文本模板中提取的文本特征之间的相似性。然而，由于CLIP并非专为异常检测设计，因此很难生成能够有效区分不同类别中正常和异常图像的文本嵌入。因此，人们提出了基于提示的学习方法 [12] [13]，以适应ZSAD任务。AnomalyCLIP [12] 提出了一种通用的、与对象类别无关的提示学习方法，可以广泛应用于各种领域（图1(a)）。AdaCLIP [13] 则提出了混合式可学习提示，结合了静态提示和从每张图像的最后一层token嵌入生成的动态提示（图1(b)）。

尽管这些基于提示的学习方法表现出了良好的性能，但它们在类别无关提示和特定类别提示之间仍存在平衡问题，因为ZSAD中的异常被分为两类：1) 需要特定语义线索进行检测的异常；2) 以类别无关方式检测的异常。具体来说，AnomalyCLIP的通用查询提示阻碍了对特定类别异常的检测，而AdaCLIP将视觉线索注入文本提示会导致对辅助训练数据集中的特定类别过度拟合。因此，平衡这两个属性至关重要。为此，我们提出了GenCLIP，采用了图1(c)所示的双分支策略。具体而言，GenCLIP通过结合两个互补分支的输出来检测异常：1) 充分利用视觉特征的增强视觉分支；2) 仅依赖通用查询提示（GQPs）的查询分支。这种设计旨在实现类别特异性与泛化之间的平衡。

我们进一步提出了一种名为多层视觉提示的训练方案，以加强这两个分支的互补作用。它通过将提示学习与多层次CLIP视觉特征相结合，增强了仅依赖查询的分支的泛化能力，同时提高了增强视觉分支的特异性。在执行ZSAD时，我们利用CLIP视觉编码器的多层特征，这些特征能够捕捉对AD有用的多种风格。在训练过程中，我们将生成的多层视觉提示（MVPs）注入GQPs中，从而使提示能够适应不同的视觉风格，即使对于同一图像也是如此。这种机制减少了过度拟合于类别依赖语义的倾向，并促使GQPs关注更风格不变的正常与异常线索。同时，增强视觉的分支可以利用特定层次的视觉信息作为额外的线索，实现更细粒度和类别敏感的区分。

此外，正确地将图像描述融入文本提示对于增强视觉的分支至关重要，因为其预测依赖于细粒度的文本-图像对齐。然而，在ZSAD环境中，某些类别名称或描述性术语在CLIP的预训练文本空间中的表示可能较弱，导致文本嵌入模糊或嘈杂，可能干扰匹配过程。为了解决这个问题，我们引入了一种自适应术语对齐（ATA）方法，以改进文本表示并提高其与图像特征的对齐效果。

章节摘录

零样本异常检测

基于VLM的ZSAD。 VLMs在一系列零样本任务中表现出色，这激发了人们将这些模型应用于ZSAD的兴趣。在ZSAD中，模型在辅助数据集上接受训练，以区分正常和异常模式，即使是在未见过的类别中也是如此。开创性工作WinCLIP [10] 利用了大量的正常和异常文本模板来提取相应的嵌入，并将其与从CLIP获得的补丁特征进行比较

概述

在本文中，我们提出了GenCLIP，这是一个用于ZSAD的鲁棒且可泛化的提示学习框架。

与之前的ZSAD方法 [10] [12] [13] 类似，GenCLIP计算图像与预定义的正常/异常文本描述（例如“一张[cls]的照片”和“一张损坏的[cls]的照片”）之间的相似性，其中[cls]代表目标对象类别。如图2所示，输入图像通过预训练的CLIP视觉编码器进行处理。来自多个

实验设置

数据集。为了验证GenCLIP的ZSAD性能，我们在六个工业ZSAD基准数据集（MVTec-AD [29]、VisA [30]、MPDD [31]、BTAD [32]、SDD [33] 和 DTD-synthetic [34]）以及七个医学ZSAD基准数据集（ISIC [35]、CVC-ColonDB [36]、CVC-ClinicDB [37]、TN3K [38]、HeadCT [39]、BrainMRI [40] 和 Br35H [41]）上对其进行了评估。为了公平比较，我们遵循了现有研究 [12] 的设置。具体来说，在评估其他数据集时，我们使用MVTec-AD来训练GenCLIP。

分析

为了证明我们提出方法的有效性，我们在代表性数据集MvTec-AD [29] 和 VisA [30] 上进行了进一步分析，因为这些数据集包含了通用异常（例如划痕、孔洞）和特定类别异常（例如缺失部分、形状不规则）的平衡分布。当消融研究中的设置标记为MvTec时，表示模型是在VisA上训练的，并在MVTec上进行评估；反之，当标记为VisA时，表示模型是在

结论

在本文中，我们提出了GenCLIP，这是一个基于CLIP的零样本异常检测（ZSAD）框架，旨在在类别无关的泛化能力与对特定类别异常的敏感性之间取得平衡。为了解决这一权衡，GenCLIP采用了双分支推理方案，结合了两种互补的预测。增强视觉的分支利用图像条件化的线索来更好地捕捉细粒度的、与类别相关的异常模式，而仅依赖查询的分支则完全依赖于通用查询提示（GQPs）。

CRediT作者贡献声明

金东亨：撰写——原始草稿、软件开发、项目管理、方法论、形式分析、概念化。朴彩元：撰写——审稿与编辑、撰写——原始草稿、项目管理。赵秀焕：撰写——审稿与编辑、可视化。林贤贞：可视化、验证。姜民硕：撰写——审稿与编辑、可视化。李俊浩：撰写——审稿与编辑、可视化。李相允：项目管理、资金筹集。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

金东亨于2021年从韩国首尔延世大学获得电气与电子工程学士学位，目前正在攻读博士学位。他的当前研究兴趣包括异常检测、3D计算机视觉和生成模型。

联系信箱：

粤ICP备09063491号

摘要

引言

章节摘录

零样本异常检测

概述

实验设置

分析

结论

CRediT作者贡献声明

利益冲突声明

热点排行