基于记忆增强与梯度解释的无监督异常检测与分割框架USAGI

《Pattern Recognition》:A Memory and Retrieval Transformer-based Unsupervised Learning Model for Anomaly Detection and Segmentation

【字体: 时间:2025年12月27日 来源:Pattern Recognition 7.6

编辑推荐:

  本研究针对无监督异常检测中模型对复杂背景和细微缺陷敏感度不足的问题,提出了一种名为USAGI(Unsupervised Segmentation and Anomaly Gradient Interpretation)的新框架。该研究通过构建记忆矩阵(Memory Matrix)来学习正常样本的分布,并利用一种新颖的梯度解释(Anomaly Gradient Interpretation, AGI)机制来精确定位异常区域。研究结果表明,USAGI在MVTec AD、VisA、Real-IAD和MANTA等多个公开数据集上均取得了领先的性能,其AUROC、AUPRO和F1-Max等指标均优于现有方法。该工作为工业视觉检测提供了一种高效且鲁棒的解决方案,具有重要的理论价值和实际应用意义。

  
在工业制造、医疗影像和自动驾驶等领域,确保产品质量和系统安全至关重要。然而,异常情况(如产品缺陷、病变组织或道路障碍物)往往形态各异、出现频率极低,导致收集大量带标签的异常样本用于训练模型变得异常困难且成本高昂。因此,无监督异常检测(Unsupervised Anomaly Detection)应运而生,其核心思想是仅利用大量“正常”样本进行训练,使模型学习到正常数据的分布模式。在测试时,任何偏离该分布的数据点或区域都会被判定为异常。
尽管现有方法在简单场景下已取得一定成效,但在面对复杂背景、细微缺陷或结构复杂的物体时,其检测精度和定位能力仍面临严峻挑战。许多方法难以有效区分正常纹理变化与真实异常,导致误报或漏报。此外,如何生成像素级精确的异常分割掩码(Segmentation Mask),而不仅仅是图像级的分类,是当前研究的一大难点。为了解决这些问题,研究人员提出了一种名为USAGI(Unsupervised Segmentation and Anomaly Gradient Interpretation)的全新框架,旨在通过一种更智能、更鲁棒的方式实现高精度的无监督异常检测与分割。
为了回答上述问题,研究人员设计并实现了一个包含四个核心组件的USAGI框架。该框架首先通过特征提取器(Feature Extractor)获取多尺度语义特征。随后,等变换器(Equal Transformer)对这些特征进行对齐和融合,确保不同层级的特征信息得到有效整合。记忆变换器(Memory Transformer)则负责构建和更新一个记忆矩阵,该矩阵在训练过程中不断积累和精炼正常样本的特征表示。最后,检索变换器(Retrieval Transformer)通过计算输入特征与记忆矩阵之间的差异,生成一个异常梯度解释(Anomaly Gradient Interpretation, AGI)图,该图与重建误差相结合,最终输出像素级的异常分割掩码。该研究在MVTec AD、VisA、Real-IAD和MANTA等多个公开数据集上进行了广泛验证,证明了其方法的有效性和优越性。相关研究成果已发表在《Pattern Recognition》期刊上。
主要技术方法
本研究采用了一种两阶段训练策略。在训练阶段,模型仅使用正常样本。首先,通过预训练的ViT-B/16模型提取多尺度特征,并利用等变换器(Equal Transformer)进行特征对齐与融合。其次,利用记忆变换器(Memory Transformer)构建并动态更新一个记忆矩阵,该矩阵用于存储和精炼正常模式的特征表示。在推理阶段,模型参数和记忆矩阵被冻结。通过检索变换器(Retrieval Transformer)计算输入特征与记忆矩阵之间的差异,生成异常梯度解释(AGI)图,并结合重建误差,最终融合生成像素级的异常分割掩码。
研究结果
1. 模型性能超越现有方法
研究团队在MVTec AD、VisA、Real-IAD和MANTA四个权威数据集上,将USAGI与当前最先进的(SOTA)方法进行了全面对比。实验结果表明,USAGI在各项关键指标上均取得了领先或极具竞争力的成绩。特别是在VisA数据集上,USAGI在AUROC(99.5%)、AUPRO(92.8%)和F1-Max(61.6%)三个指标上均创造了新的记录,全面超越了GLASS、DiAD、DeSTSeg等现有方法。在MVTec AD数据集上,USAGI同样表现出色,其AUPRO(92.9%)和F1-Max(60.8%)均位居前列,证明了其在复杂工业场景下的强大泛化能力和鲁棒性。
2. 可视化结果展示精准定位能力
为了直观展示USAGI的检测效果,研究团队提供了丰富的可视化结果。从图例中可以看出,USAGI生成的异常梯度解释(AGI)图能够清晰地高亮出异常区域,而最终预测的二进制掩码(Binary Mask)与真实标签(Ground Truth)高度吻合。无论是表面划痕、结构缺失还是污染等不同类型的缺陷,USAGI都能实现精确的定位和分割。值得注意的是,在纹理复杂的物体(如地毯和瓷砖)上,模型虽然仍能有效检测异常,但分割边界略有模糊,这表明模型在处理自然纹理变化与真实异常之间的细微差别时仍存在一定的挑战。
3. 消融实验验证核心模块贡献
为了验证USAGI框架中各个组件的必要性,研究团队进行了一系列消融实验(Ablation Study)。实验结果表明,移除任何一个核心模块都会导致模型性能的显著下降。例如,当移除特征处理块(FPB)时,模型无法有效提取和融合多尺度特征,导致AUROC和AUPRO指标大幅下滑。当移除记忆处理块(MPB)中的记忆更新网络(MUN)时,模型无法利用历史信息更新记忆矩阵,使得记忆矩阵的代表性变差。而移除距离检索(DBR)机制,直接使用标准注意力机制,则严重削弱了模型区分正常与异常区域的能力。这些结果充分证明了USAGI框架中每个组件都是不可或缺的,它们共同协作,才实现了优异的异常检测性能。
4. 效率与复杂度分析
在模型效率方面,USAGI的总参数量为46.7M,与当前主流的Transformer-based方法(如PatchCore和Dinomaly)相比处于中等水平。在NVIDIA A6000 GPU上进行推理时,USAGI在FP16精度下的平均处理速度约为3.74毫秒/张,相当于每秒处理约138张图像,完全满足工业检测对实时性的要求。其中,检索变换器(Retrieval Transformer)是计算开销最大的模块,这反映了计算逐块距离和内存检索所带来的额外成本。
结论与讨论
本研究提出的USAGI框架,通过构建一个动态更新的记忆矩阵来学习正常样本的分布,并利用一种新颖的异常梯度解释(AGI)机制来精确定位异常区域,成功解决了无监督异常检测与分割中的关键难题。该框架在多个公开数据集上均取得了领先的性能,证明了其在复杂工业场景下的有效性和鲁棒性。
USAGI的重要意义在于其提供了一种全新的思路。它不再仅仅依赖于重建误差,而是通过“记忆”与“检索”的机制,将异常检测问题转化为一个特征匹配问题。这种机制使得模型能够更智能地判断一个区域是否偏离了学习到的正常模式,从而实现了更精确的定位。此外,USAGI的模块化设计使其具有良好的可解释性,研究人员可以通过分析AGI图来理解模型做出决策的依据。
尽管USAGI在多个方面取得了显著进展,但研究也指出了其存在的局限性。例如,模型在处理具有复杂自然纹理的背景时,分割精度会有所下降。此外,模型目前假设训练数据是纯净的正常样本,如果训练数据中混入了噪声或异常样本,可能会污染记忆矩阵,从而影响检测性能。
展望未来,研究人员计划从多个方向对USAGI进行改进。首先,他们将探索更高效的算法来加速掩码生成过程,以进一步提升模型的实时性。其次,他们将研究如何使模型对训练数据中的噪声具有更强的鲁棒性,例如通过引入噪声感知或半监督的记忆更新策略。最后,他们计划将USAGI应用于更具挑战性的真实世界场景,如存在域偏移(Domain Shift)或对抗性噪声的环境,以进一步验证和提升其实际应用价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号