迈向细粒度视觉-语言对齐，以实现少样本异常检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Towards Fine-Grained Vision-Language Alignment for Few-Shot Anomaly Detection

【字体：大中小】 时间：2026年02月28日 来源：Pattern Recognition 7.6

编辑推荐：

　　针对少样本异常检测中语义错位和视觉细粒度不足的问题，本文提出多级细粒度语义描述（MFSC）框架和FineGrainedAD方法，通过自动构建多级文本描述（图像级、前景级、组件级）与动态可学习的提示机制，结合多级语义对齐训练策略，实现更精准的异常定位，在MVTec和VisA数据集上验证有效性。

范圆婷|刘军|陈晓晨|高彬彬|李健|刘勇|彭金龙|王成杰

腾讯优图实验室，中国深圳

摘要

少样本异常检测（FSAD）方法在仅有少量已知正常样本的情况下识别异常区域。大多数现有方法依赖于预训练的视觉语言模型（VLMs）的泛化能力，通过文本描述和图像之间的特征相似性来识别潜在的异常区域。然而，由于缺乏详细的文本描述，这些方法只能预先定义图像级别的描述，以匹配每个视觉块令牌来识别潜在的异常区域，这导致图像描述与块级视觉异常之间的语义不对齐，从而使得定位性能不佳。为了解决上述问题，我们提出了多级细粒度语义标注（MFSC），为现有的异常检测数据集提供多级和细粒度的文本描述，并附带自动构建流程。基于MFSC，我们提出了一个名为FineGrainedAD的新框架来提高异常定位性能，该框架包括两个组成部分：多级可学习提示（MLLP）和多级语义对齐（MLSA）。MLLP通过自动替换和连接机制将细粒度语义引入多级可学习提示中，而MLSA设计了区域聚合策略和多级对齐训练，以促进可学习提示与相应视觉区域的更好对齐。实验表明，所提出的FineGrainedAD在MVTec-AD和VisA数据集的少样本设置中取得了优越的整体性能。

引言

异常检测旨在识别和定位工业或医疗场景中的异常区域，在质量监控[1]、[2]、[3]、[4]以及预测分析[5]、[6]中发挥着重要作用。传统方法[7]、[8]、[9]基于大量的正常图像优化感知模型，虽然取得了优异的性能，但在缺乏可访问的正常样本的未知场景中，其泛化能力有限[7]、[9]。因此，只需要几张正常图像就能取得满意性能的少样本异常检测（FSAD）方法[10]、[11]、[12]、[13]、[14]、[15]受到了越来越多的关注。

预训练的视觉语言模型（例如CLIP [16]）最近在各种下游场景中展示了强大的零样本/少样本泛化能力[10]、[11]、[17]、[18]、[19]、[20]。基于这些基础模型，许多工作如WinCLIP [10]、AnomalyGPT [12]、AnoVL [21]、MetaUAS [22]等通过计算所有图像视觉块与手动制作的图像级文本描述之间的余弦相似度来实现异常检测。尽管这些工作提高了FSAD的性能，但它们仍然存在一个问题，即手动制作的图像级文本描述（例如损坏瓶子的照片）无法准确匹配不同对象类别中的多样化异常视觉区域。注意到这一现象，PromptAD [11]受到CoOp [23]的启发，提出了一种简单有效的语义连接（SC）机制来获得可学习提示，然后设计明确的损失函数来约束正常和异常可学习图像级提示的特征分布，进一步提高了FSAD的性能。尽管引入了可学习提示来增强性能，但这些方法仍然停留在图像级别视图，未能深入到细粒度感知（例如PCB中的引脚、电阻器），从而限制了整体的异常定位能力。如图1所示，即使PromptAD [11]加入了可学习提示，图像级提示与块级视觉组件（例如PCB上的LED）之间的比较也导致正常区域的异常激活值较高。尽管UniVAD [13]引入了外部分割模型（例如Grounded-SAM [24]）来提高后续异常检测的视觉粒度，但由于模型参数的数量和额外的预处理需求，外部模型在计算资源有限的情况下限制了其进一步的应用。在本文中，我们的目标是通过多级可学习提示与相应视觉组件之间的细粒度对齐策略，提供一个通用且直接的工业异常检测流程，在有限的计算资源下实现良好的整体性能（即定位性能和推理速度），从而提高实时应用中异常检测的有效性。

由于仅使用图像级提示，现有方法存在以下两个缺点：1) 现有的AD数据集缺乏细粒度的文本描述，导致只能构建图像级提示，从而无法充分利用VLMs的细粒度语义提取能力。2) 使用图像级提示计算所有视觉块的像素级异常分数时，没有考虑到不同的视觉块属于不同的视觉组件，而不是单一的图像级提示，从而导致图像级提示特征与块级视觉令牌特征之间的语义不对齐。

为了解决上述问题，我们首先提出了多级细粒度语义标注（MFSC），它构建了一个多级图像描述架构（即图像级、前景级和组件级），从粗粒度到细粒度描述正常图像的语义信息。与之前简单的图像级文本描述相比，它提供了更细粒度的文本信息，以更好地利用预训练VLM的感知能力。通过制定合适的系统提示来促进高级MLLM（例如GPT-4o [25]）自动生成视觉组件及其相应属性（例如颜色、方向）的描述，我们最终获得了适用于异常检测和定位任务的MFSC。基于提出的MFSC，我们提出了一个名为FineGrainedAD的新FSAD框架，无缝解决了上述两个问题。FineGrainedAD包括两个不可或缺的组成部分：多级可学习提示（MLLP）和多级语义对齐（MLSA）。首先，MLLP通过自动替换和连接机制将之前的图像级提示分解为多级提示，以实现细粒度的对齐提示学习能力。同时，MLSA设计了语言引导的渐进式区域聚合策略，基于MLLP指导来自同一视觉组件的视觉块的聚合，然后在训练阶段利用多个优化目标来明确对齐多级可学习提示和相应的视觉表示。在推理过程中，MLSA动态地为每个视觉块分配最合适的提示特征，从而实现细粒度的异常定位。如图1 c)、d)和e)所示，现有的图像级提示无法识别不同视觉组件中的多种异常类型，而提出的带有MFSC的FineGrainedAD能够准确感知和定位上述异常。

我们的贡献可以总结如下：

•

我们提出了多级细粒度语义标注（MFSC）及其相应的自动构建流程，推动了异常检测领域从图像级到组件级感知粒度的发展。

•

多级可学习提示（MLLP）通过自动替换和连接机制将之前的图像级提示分解和丰富为多级可学习提示，更好地利用了预训练VLM的细粒度语义感知能力。

•

多级语义对齐（MLSA）利用多级对齐训练和多级可学习提示与相应视觉块之间的动态令牌级推理机制，促进了块级异常定位性能。

•

在多个AD数据集上的广泛实验表明，提出的FineGrainedAD在少样本AD设置下无需辅助训练图像即可实现先进的定位性能和推理效率。

动机与概述

现有的基于提示的学习型FSAD方法存在以下缺点：设计的提示（手工制作或可学习的）仅限于图像级别范围（例如[正常/异常状态]对象的照片），尽管一些方法[21]、[45]引入了位置或领域信息来提高提示的粒度，但它们仍然无法达到组件级别的感知粒度，仅取得了次优的结果。同时，使用相同的图像级别

实验设置

数据集。我们在MVTec-AD [2]和VisA [3]数据集上进行实验。这两个基准测试集包含不同对象中的多种异常类型。MVTec包含15个类别，像素数量为

700^{2} ? 900^{2}

，VisA包含12个类别，分辨率约为1.5K×1K。训练集仅包含正常图像，而测试集包含带有像素级注释的正常和异常图像。

比较方法和评估指标。我们将提出的FineGrainedAD与现有的方法进行比较

结论

在本文中，为了解决现有FSAD方法存在的粗粒度感知和语义不对齐问题，我们提出了多级细粒度语义标注（MFSC），它构建了图像描述架构，并利用先进的MLLM基于少量正常图像构建细粒度属性描述。基于MFSC，我们提出了一种新的少样本异常检测方法FineGrainedAD，该方法包括两个组成部分：

CRediT作者贡献声明

范圆婷：写作 – 审稿与编辑，撰写原始草稿，可视化，验证，软件，资源，项目管理，方法论，调查，正式分析，数据策划，概念化。刘军：写作 – 审稿与编辑，撰写原始草稿，可视化，验证，监督，软件，资源，项目管理，方法论，调查，资金获取，正式分析，数据策划，概念化。陈晓晨：写作 – 审稿

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作