基于Transformer的增量式自监督学习方法在异常检测与定位中的应用

《Engineering Applications of Artificial Intelligence》:Incremental self-supervised learning based on transformer for anomaly detection and localization

【字体: 时间:2025年08月21日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  提出基于Transformer的自监督学习框架,通过分阶段训练整合全局语义建模与像素级细节学习,结合图像重建与像素分类双头结构实现高精度异常检测与定位,并在多个工业数据集上验证有效性。

  在当前人工智能和机器学习快速发展的背景下,图像数据中的异常检测与定位问题成为了一个备受关注的研究方向。异常检测的核心目标是识别出数据集中与正常模式存在显著差异的异常点或事件,而定位任务则进一步要求模型能够准确指出异常的具体位置。这一过程在工业生产、医疗诊断和安全监控等领域具有重要的实际意义,例如工业生产中对产品表面缺陷的检测、医疗影像中对局部病变的识别,以及安全筛查中对潜在危险物品的发现。

然而,图像异常检测与定位面临诸多挑战。首先,由于任务本质上是无监督的,模型需要在没有标注数据的情况下,同时识别全局和局部的异常。其次,图像数据的高维度和复杂性使得传统的低维数据处理方法难以直接应用。此外,许多现有的异常检测方法在定位精度上存在不足,特别是在识别小尺度或局部异常时表现欠佳。为了解决这些问题,研究者们尝试了多种方法,包括基于分类器的模型和基于重构的模型。

基于分类器的异常检测方法通常分为两大类:一类是单类分类器方法,另一类是数据增强分类器方法。单类分类器方法通过将正常样本映射到一个超平面,并优化参数以最大化或最小化样本与中心点的距离,从而判断样本是否为异常。这类方法在处理小样本和低维数据时表现良好,但在面对高维图像数据时往往难以有效捕捉局部特征。相比之下,数据增强分类器方法则通过在训练过程中引入增强数据,使模型能够更好地识别异常。例如,GT-based(Ground Truth-based)方法通过在图像中模拟异常,训练模型区分真实图像和增强后的图像。尽管这种方法在一定程度上提高了模型对局部结构的关注,但通常依赖于图像级别的分类损失,缺乏对像素级细节的精细建模能力。

为了解决这些局限性,研究者们提出了一种新的方法,即像素级分类方法。该方法的核心思想是训练模型直接区分被破坏的像素与正常的像素,从而在检测异常的同时实现精准的定位。这种方法的优势在于,它能够直接输出像素级别的异常概率图,无需额外的后处理步骤。然而,这种方法也存在一定的挑战,尤其是在数据增强过程中,如何使被破坏的像素更真实地模拟实际异常成为了一个关键问题。由于这些被破坏的像素是合成生成的,可能存在与真实缺陷之间的差异,进而导致模型误判。

为了克服这些挑战,研究者们进一步探索了基于重构的异常检测方法。这类方法通过训练模型重构正常图像,假设异常区域更难以被重构,因此重构误差可以用来定位异常。然而,传统的重构损失通常是在整个图像上计算的,这可能导致模型在重构过程中更关注低频的全局结构,而忽略了高频的局部细节,如细纹理和局部结构的变化。这些高频细节往往是识别细微异常的关键特征。

因此,为了提高重构方法对局部细节的敏感度,研究者们提出了基于去噪的重构方法,如去噪自编码器(Denoising Autoencoders, DAEs)。DAEs通过在图像中引入局部破坏,并训练模型恢复这些被破坏的区域,从而学习局部细节与全局上下文之间的关系。这种方法在一定程度上提高了模型对局部异常的识别能力,但在实际应用中仍存在一定的限制,尤其是在小样本数据集上的泛化能力。

在此基础上,研究者们提出了一种基于Transformer的改进方法,即Masked Autoencoder(MAE)。MAE基于Vision Transformer(ViT)构建,通过在训练过程中遮挡图像的大部分区域,并仅使用可见区域的信息进行重构,从而学习图像的全局分布先验。这种方法在重构过程中表现出色,能够有效捕捉图像的丰富语义先验和正常数据的潜在分布。然而,MAE在像素级别的异常检测和定位上仍存在不足,尤其是在识别局部细节时,由于其主要关注低频结构,而忽略了高频细节,导致模型对细微异常的检测能力受限。

为了解决这一问题,研究者们提出了一种新的自监督学习框架,即Incremental Self-Supervised Learning(ISSTAD)。该框架结合了基于块的自监督学习和基于像素的自监督学习,从而同时捕捉全局和局部信息。具体来说,ISSTAD采用了一个类似于自编码器的架构,其中包含一个基于ViT的编码器和一个基于Transformer的解码器。编码器负责提取图像的特征,而解码器则用于重构图像,并通过两个不同的头进行处理:一个用于图像重构(RCH),另一个用于像素分类(PCH)。

在训练过程中,ISSTAD采用了两阶段的增量训练策略。第一阶段是基于块的自监督学习,类似于MAE,通过遮挡图像的大部分区域,仅使用可见区域的信息进行训练,从而学习图像的全局分布先验。第二阶段是基于像素的自监督学习,通过引入局部破坏,并生成一个标签矩阵来指示每个像素是否被破坏,从而训练模型恢复这些被破坏的区域,并使用PCH进行像素级别的分类。在第二阶段中,编码器的权重被冻结,仅解码器的权重被更新,以确保模型在重构过程中能够专注于局部异常的建模。

在推理阶段,ISSTAD模型输出像素级别的重构误差图和像素级别的异常概率图,并将这两者进行融合,形成最终的异常得分图。这种方法不仅能够实现像素级别的异常检测,还能够支持图像级别的异常判断,从而提高了模型的实用性。

实验结果表明,ISSTAD在多个真实世界的工业数据集上表现出色,包括MVTec AD、VisA、MPDD和MVTec LOCO AD。这些数据集涵盖了不同类型的异常,如表面缺陷、局部病变和潜在危险物品。实验结果验证了ISSTAD在异常检测和定位任务上的有效性,并展示了其在不同数据集上的泛化能力。

此外,ISSTAD方法在模型架构和训练过程中进行了创新,使得模型能够在有限数据条件下进行稳健训练。通过结合全局和局部的异常线索,ISSTAD不仅提高了模型对局部细节的敏感度,还增强了模型对细微异常的检测能力。这种方法的提出,为图像异常检测与定位提供了一个新的思路,即通过自监督学习框架,结合基于块和基于像素的训练策略,实现对异常的全面识别。

总的来说,ISSTAD方法的提出,标志着图像异常检测与定位技术的一个重要进展。通过引入新的自监督学习框架,结合基于Transformer的模型架构和训练策略,ISSTAD不仅克服了传统方法在定位精度上的不足,还提高了模型在有限数据条件下的泛化能力。这种方法的创新点在于,它能够同时捕捉图像的全局分布和局部细节,从而实现对异常的全面识别和精准定位。实验结果进一步验证了ISSTAD在多个真实世界数据集上的有效性,展示了其在实际应用中的潜力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号