面向工业缺陷图像生成的结构化引导扩散模型研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年10月14日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　本文提出结构化引导扩散模型（Structured-GDM），通过解耦正常背景、缺陷类别和缺陷形状三要素实现工业缺陷图像的可控生成。该模型利用轮廓引导（ODG）、类别引导（CDG）和形状引导（SDG）技术，在扩散模型（DDPM）采样过程中实现精细化控制，有效解决工业场景中缺陷样本的类不平衡（class imbalance）问题。模块化架构支持元素模型的独立训练与灵活组合，多类别训练方案（one-for-all）进一步提升了生成图像的多样性与合理性。

生成模型亮点

生成对抗网络（GANs）因其生成逼真图像的能力已成为合成图像的常用工具，但在训练中常面临模式崩溃和超参数敏感问题。近期扩散模型（Diffusion Models）通过马尔可夫链逐步添加随机噪声的反向过程，在多个领域展现出更优的图像生成潜力。

扩散模型基础理论

去噪扩散概率模型（DDPM）通过前向加噪（noising）与反向去噪（denoising）的马尔可夫链实现图像生成。前向过程从真实数据分布

x_{0} ～ q (x)

出发，逐步添加高斯噪声：

q (x_{1 : T} | x_{0}) = \prod_{t = 1}^{T} q (x_{t} | x_{t ? 1})

，

其中潜在变量

x_{1}, ?, x_{t}

在每一步迭代中按预设方差参数进行噪声叠加。

实验设置

主要数据集MVTec包含15类缺陷的73个子类，每个子类仅含10-25张缺陷图像。参照DFMGAN方案，将约三分之一缺陷数据作为基线训练集（Baseline），其余数据用于验证生成模型的泛化能力。

优势与局限性

结构化引导扩散模型（Structured-GDM）以适中计算成本实现元素级可控生成，显著优于仅支持几何拼接的Crop&Paste方法和可控性受限的DFMGAN。当前最优的AnomalyDiffusion因隐式控制机制限制，仅能实现类别级缺陷生成。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号