利用扩散模型实现基于可控参考的语义裂纹图像生成，以用于智能基础设施检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《AUTOMATION IN CONSTRUCTION》：Controllable reference-based semantic crack-image generation using diffusion model for intelligent infrastructure inspection

【字体：大中小】 时间：2026年01月14日 来源：AUTOMATION IN CONSTRUCTION 11.5

编辑推荐：

　　裂缝图像可控生成与数据增强模型研究。提出CRDM框架，通过多条件控制机制和边界感知策略，结合预训练扩散模型与参考图像，实现高质、多样裂缝生成，有效提升下游模型IoU性能1%。

严文尚|李宏伟

大连工业大学基础设施工程学院，中国辽宁大连116023

摘要

提高基于深度学习的裂缝分割模型的准确性和鲁棒性仍然是一个重大挑战，主要是由于可用的像素级标注数据数量不足且多样性不够。为了解决这个问题，本文提出了一种可控的基于裂缝参考的扩散模型（CRDM）。该模型可以通过利用预定义的掩码和参考图像，在无裂缝的背景图像上准确地合成真实的裂缝。值得注意的是，它能够有效地将裂缝特征从参考图像转移到生成的图像中，同时保持高语义准确性。通过广泛的实验验证了CRDM在生成高质量、多样化且具有精确可控性的裂缝图像方面的优势。使用CRDM生成的图像增强后的数据集使裂缝分割模型的性能提高了约1%的IoU（交并比）。通过我们改进的标签过滤策略，进一步提升了性能。所提出的CRDM在裂缝分割任务中显示出强大的潜力，有效减少了数据标注和采集的时间和成本。

引言

基础设施中的表面裂缝是结构损伤和老化的关键指标。传统的裂缝检测方法主要依赖于人工检测技术，在劳动力需求、运营成本和可靠性方面存在显著限制，因为这些方法受到人为因素的影响[1]。近年来，人们对基于深度学习的自动化裂缝识别方法给予了更多关注。深度学习模型的性能在很大程度上取决于标注训练数据的规模和质量[2]。然而，获取真实的裂缝图像面临两个主要挑战：1）基础设施复杂的运行环境和裂缝结构部件的相对稀缺性限制了收集到的图像的多样性和质量；2）对获取到的图像进行过滤和像素级标注需要大量的时间和劳动力。因此，裂缝分割数据集通常样本量有限、多样性低且标注成本高，这严重限制了深度学习方法在裂缝识别方面的性能提升。

为了缓解数据稀缺的影响，广泛采用了传统的基于图像变换的方法[[3], [4], [5]]（例如，几何变换、颜色反转和模糊处理）以及基于区域的增强操作（例如CutMix [6], Mixup [7] 和 Mosaic [8]）来增强数据集。这些方法依赖于对现有图像的修改，无法创建具有新颖特征或复杂纹理的新裂缝图像。因此，它们提升模型性能的能力本质上是有限的[9]。此外，这些增强操作的有效性高度依赖于任务场景和实现方法，通常需要繁琐的优化过程来确定最佳策略[10]。

最近在生成模型方面的突破，特别是生成对抗网络（GANs）和扩散模型，为增强真实世界数据集的规模和多样性提供了新的范式。通过学习真实裂缝图像的复杂分布，这些生成模型可以合成现有真实数据集中缺乏或不存在的裂缝模式。多项研究[[11], [12], [13], [14], [15], [16], [17], [18], [19]]已经证实，使用生成模型进行数据增强可以显著提高裂缝检测模型的准确性和鲁棒性。这些研究中的大多数方法都是基于对GANs的修改。例如，在2023年，赵等人[11]指出，在pix2pix、CycleGAN、OASIS和pix2pixHD中，pix2pixHD（其中

λ = 15

）是生成裂缝损伤图像的最佳条件GAN（CGAN）。随后，在2024年，他们提出了DamageGAN-AE网络[12]以实现多风格损伤图像的生成。这些生成的图像显著提高了下游语义分割任务的性能。李等人[13]证明，使用基于CycleGAN的方法训练可以将分割模型的平均交并比（mIoU）和平均像素精度（mPA）分别提高0.63%和2.23%。黄等人[14]应用基于CycleGAN的方法从水上大坝裂缝图像生成水下大坝裂缝图像，在多个裂缝分割模型中取得了显著的性能提升。对于路面裂缝应用，钟等人[15]、梅等人[16]和徐等人[17]开发了几种基于GAN的架构变体。然而，这些基于GAN的模型存在训练不稳定的问题，它们生成的图像往往缺乏真实感、多样性和细节。

扩散模型的出现彻底改变了图像生成领域，产生了高度真实和高质量的输出。尽管生成过程从随机噪声开始，但输出图像显示出更高的新颖性和多样性。此外，条件引导机制提供了相当大的灵活性和可控性。张等人[18]和岳等人[19]的研究证实了扩散模型在生成损伤图像方面的出色效果和广阔前景。然而，将现有的扩散模型应用于裂缝图像生成任务仍然面临三个关键挑战：1）训练和推理过程中的高计算成本；2）裂缝与背景之间的特征混淆；3）对裂缝形态和空间分布模式的控制不够精确。

为了解决这些挑战，我们提出了一种多条件基于裂缝参考的扩散模型（CRDM）。该模型架构包括两个核心模块：一个ControlNet框架和一个预训练的去噪网络。整合了多个开发的组件和先进的训练技术来提高模型的生成能力。总体而言，我们提出的CRDM不仅能够从参考图像中转移裂缝特征，还能够实现可控且真实的语义裂缝图像生成。我们工作的主要贡献如下：

1)

CRDM是一种基于预训练扩散模型的可控裂缝图像生成框架，可以在小规模数据集上进行训练。通过整合多个模块和预训练模型，我们提出的框架显著提高了可训练参数的效率和部署灵活性，从而克服了上述提到的第一个挑战，即高训练成本。

2)

CRDM是第一个将裂缝边界区域（围绕裂缝的具有一定像素宽度的背景区域）和参考图像引入裂缝生成任务的模型。裂缝边界区域的引入有效解决了裂缝与背景之间的混淆问题。

3)

我们提出了一种多控制条件输入的范式，以确保生成图像的优秀可控性、高质量和多样性，有效解决了第三个挑战。

4)

我们提出了一种外观-语义交叉注意力特征对齐模块（AS-CFAM），以增强参考图像和生成图像之间的特征对齐。该模块通过交叉注意力机制加强了从参考图像中提取外观和语义特征的能力，提高了生成图像的真实感和多样性。

5)

CRDM在增强裂缝分割训练数据集方面表现出高度的灵活性和有效性。结合我们改进的标签过滤策略，增强后的数据集可以进一步提高下游裂缝分割模型的性能。

方法

选择了一张无裂缝的混凝土图像作为源图像

x_{s} \in ?^{H \times W \times 3}

，其中H和W分别代表高度和宽度。生成图像的语义标签由二值掩码

m_{c} \in {(0, 1)}^{H \times W}

预先定义。此外，还选择了一张真实的混凝土裂缝图像作为参考图像

x_{r} \in ?^{H \times W \times 3}

。我们的目标是从

y

生成一张新图像

(x_{s}, x_{r}, m_{c})

。同时，

m_{c} = 0

的区域与源图像中的区域保持一致；然而，

m_{c} = 1

的区域必须与源图像中的区域非常相似

实验

本节对提出的CRDM进行了全面的实验评估。首先详细介绍了实验配置，然后介绍了三个裂缝分割数据集、测试基准和评估指标。接下来进行了广泛的消融研究，以验证每个组件的贡献，并与现有最佳方法进行了比较，以证明其优越性。结果和相应的分析也进行了讨论。

生成图像在裂缝分割中的应用

我们通过对第4.2.1节中介绍的三个数据集进行广泛实验，评估了CRDM的有效性。这些实验使用了三种广泛使用的分割模型，包括基于ResNet50 backbone的U-Net [48]（UNet-ResNet50）、基于ResNet50 backbone的DeepLabV3+ [49]（DeepLabV3 + ResNet50）以及基于MiT-B0 backbone的轻量级SegFormer模型（SegFormer-B0）。对于定量评估，我们采用了

结论

本文提出了CRDM，这是一种基于可控裂缝参考的扩散模型，可以从预定义的标签和参考示例生成高质量、多样化的裂缝图像。通过将多条件控制机制集成到预训练的PBE中，CRDM实现了生成裂缝的精确空间定位，同时有效地从参考图像中转移了低级纹理和高级语义特征。引入的关键创新包括边界感知

CRediT作者贡献声明

严文尚：撰写——审稿与编辑，撰写——原始草稿，可视化，验证，软件，方法论，调查，数据管理。李宏伟：撰写——审稿与编辑，监督，项目管理，资金获取。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

本项工作得到了大连高层次人才创新与创业项目（编号：2019RD01）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关工作

方法

实验

生成图像在裂缝分割中的应用

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行