DyC-CLIP：动态上下文感知的多模态提示学习方法，用于零样本异常检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：DyC-CLIP: Dynamic Context-Aware Multi-Modal Prompt Learning for Zero-Shot Anomaly Detection

【字体：大中小】 时间：2026年02月04日 来源：Pattern Recognition 7.6

编辑推荐：

　　动态上下文感知CLIP模型DyC-CLIP通过频率域适配器注入全局视觉信息，结合跨模态引导稀疏注意力和异常感知语义聚合模块，有效提升复杂视觉条件下的零样本异常检测性能，在工业与医疗数据集上达到最优表现。

陈鹏|黄方军|黄超

深圳中山大学深圳校区网络科学与技术学院，中国深圳，518107

摘要

视觉语言模型（VLMs）在零样本异常检测（ZSAD）任务中展现了显著的潜力，这得益于它们强大的泛化能力，能够在没有额外监督的情况下识别未见类别中的异常。然而，它们在具有挑战性的视觉条件下的鲁棒性和适应性仍然有限，因为现有方法通常依赖于精心设计的文本提示，这些提示需要丰富的领域知识和人工努力。此外，简单的提示公式难以捕捉图像中固有的复杂结构特征。为了解决这些限制，我们提出了DyC-CLIP，这是一种新的动态上下文感知提示学习方法，用于ZSAD。DyC-CLIP通过使文本嵌入动态适应细粒度块特征来增强异常定位能力。具体来说，我们提出了一种频域动态适配器（FDA），它将全局视觉信息整合到文本提示中，减少了对产品特定提示的依赖。为了进一步促进跨模态对齐，我们开发了跨模态引导的稀疏注意力（CGSA）模块，该模块根据细粒度图像特征动态细化文本嵌入。此外，我们还设计了异常感知语义聚合（ASA）模块，以整合局部上下文信息并增强模型区分异常模式的能力。在涵盖工业和医学领域的14个数据集上的广泛实验表明，DyC-CLIP达到了最先进的性能。代码将在发表后公开提供。

引言

异常检测已成为一种在多个领域中具有广泛应用的技术，包括工业缺陷检测[1]、[2]和医学诊断[3]、[4]。异常检测的基本目标是识别偏离正常数据分布的异常实例。传统的异常检测方法通常依赖于精心策划的、特定于任务的数据库，这限制了它们在涉及数据隐私约束或训练数据和测试数据之间分布显著变化的实际场景中的适用性[5]、[6]。零样本异常检测（ZSAD）旨在开发在辅助数据集上训练的通用模型，以检测以前未见类别中的异常[7]，已成为传统方法的一个有前途的替代方案。然而，异常类型的巨大变异性、多样的视觉退化以及复杂的背景干扰继续阻碍了鲁棒的泛化。

近年来，在大规模图像-文本对上预训练的视觉语言模型（VLMs）在各种视觉任务中展现了出色的性能[8]。在这些模型中，CLIP[9]因其强大的泛化能力而成为ZSAD的突出支柱。基于CLIP的方法的一个关键组成部分是文本提示的设计，这显著影响了检测性能。如图1(a)所示，现有的零样本方法通常计算文本提示和块特征之间的相似性以生成像素级异常图。然而，这些提示往往缺乏对特定图像的适应性。为了应对这一问题，提出了提示学习。现有的提示策略大致可以分为两类：提示集成和提示优化。例如WinCLIP[10]和APRIL-GAN[11]依赖于手工制作的模板来构建提示，这通常需要丰富的领域知识，并且对提示质量敏感。相比之下，基于优化的方法，包括AnomalyCLIP[12]和AdaCLIP[7]，使用可学习的向量替换固定模板中的静态文本嵌入，从而增强了语义表达能力和适应性。尽管取得了这些进展，但仍有两个主要挑战尚未得到充分探索。首先，对固定文本特征的依赖限制了区分能力，因为它们缺乏适应视觉表示中显著类别内变化的灵活性。其次，现有方法未能充分捕捉块级别的上下文依赖性，阻碍了模型准确感知异常区域的能力。

为了解决上述限制，我们提出了DyC-CLIP，这是一种针对恶劣视觉条件下的ZSAD任务设计的新型动态上下文感知提示学习方法。我们的方法采用两种互补策略来增强图像-文本对齐：1）在文本编码之前将全局图像特征纳入文本提示；2）在编码后使用图像引导的上下文信息动态细化文本嵌入。与依赖简单策略的现有方法不同，DyC-CLIP在视觉语义的指导下动态细化文本表示，从而提高了可学习文本提示对未见类别的泛化能力。

如图1(b)所示，我们首先提出了一种频域适配器（FDA），它通过傅里叶变换将输入图像转换为频域，并使用状态空间模型（SSM）提取深度频率表示。然后将这些表示纳入文本提示中，以注入图像特定的语义信息。为了进一步实现文本和视觉特征之间的细粒度对齐，我们开发了跨模态引导的稀疏注意力（CGSA）模块，该模块在选定的语义丰富的图像特征的指导下动态细化文本表示。此外，我们设计了异常感知语义聚合（ASA）模块，该模块在图像特征内聚合块级别的上下文依赖性，以增强模型识别异常模式的能力。如图1(c)所示，我们的方法在各种ZSAD任务中展现了强大的泛化能力。我们的主要贡献总结如下：

•

我们提出了DyC-CLIP，这是一种基于CLIP的新型动态上下文感知提示学习方法，通过促进文本和视觉表示之间的一致对齐来提高异常检测性能。

•

我们设计了FDA来提取全局视觉特征，并将其注入文本提示中以增强异常敏感性。CGSA模块被提出用于根据图像特征动态细化文本嵌入。

•

为了进一步增强图像级别的异常检测，我们提出了ASA模块来提取与异常相关的区域级上下文信息。

•

在14个多样化数据集上进行的广泛评估表明，DyC-CLIP在ZSAD任务中具有出色的泛化和异常定位性能。

部分片段

传统异常检测

异常检测旨在识别偏离正常数据分布的样本[13]。然而，异常数据通常很少且分布呈长尾特性，这使得收集足够的样本进行模型训练变得具有挑战性[14]。因此，无监督异常检测变得突出，其中模型仅依赖于正常样本来学习数据分布并将异常识别为偏差。在这些方法中，基于嵌入的方法[3]、[15]

方法论

在本文中，我们提出了DyC-CLIP，这是一种动态上下文感知方法，旨在在恶劣视觉条件下提高CLIP在ZSAD任务中的性能。如图2所示，所提出的方法包括三个关键组成部分：频域动态适配器（FDA）、跨模态引导的稀疏注意力（CGSA）模块和异常感知语义聚合（ASA）模块。我们首先使用FDA对全局频域表示进行建模，然后

数据集

为了评估所提出方法在复杂视觉条件下的ZSAD性能，我们在涵盖工业和医学领域的14个真实世界异常检测数据集上进行了广泛实验。具体来说，六个工业数据集包括MVTec-AD [26]、VisA [27]、BTAD [28]、KSDD2 [29]和DTD-Synthetic [31]。八个医学图像数据集包括Br35H [32]、BrainMRI [33]和HeadCT [34]，用于脑肿瘤分类；Kvasir [35]、CVC-ColonDB [36]

结论

在这项工作中，我们提出了DyC-CLIP，这是一种基于CLIP的新方法，用于在复杂视觉条件下的ZSAD任务。DyC-CLIP动态学习上下文信息，并有效识别以前未见类别中的异常模式。FDA模块将全局视觉信息整合到文本提示中以增强异常意识，CGSA模块进一步促进了块级别特征和文本嵌入之间的细粒度交互。此外，ASA模块

CRediT作者贡献声明

陈鹏：撰写——原始草稿、可视化、资源、方法论、形式分析、数据策划、概念化。黄方军：数据策划、形式分析、调查、方法论、撰写——审阅与编辑。黄超：撰写——审阅与编辑、验证、监督、软件、项目管理、调查、资金获取。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了中国国家自然科学基金（项目编号62301621）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号