用于桥梁结构健康监测的实时混凝土裂缝分割:一种基于YOLOv11的轻量级方法及多尺度特征融合技术

《Results in Engineering》:Real-time Concrete Crack Segmentation for Bridge Structural Health Monitoring: A Lightweight YOLOv11-based Approach with Multi-scale Feature Fusion

【字体: 时间:2025年11月07日 来源:Results in Engineering 7.9

编辑推荐:

  实时桥梁混凝土裂缝检测模型优化研究,提出DWR多尺度特征融合模块与LAWDS轻量化注意力模块改进YOLOv11,实现裂缝检测精度95.4%、召回率93%、mAP50 93.0%,模型大小41.98 MB,边缘设备58 FPS实时推理,有效解决小裂缝检测难、计算资源消耗大、复杂背景干扰三大瓶颈。

  本文介绍了一种针对桥梁混凝土裂缝分割的改进型YOLOv11模型,该模型通过引入两个新模块来提升裂缝检测的准确性和效率。现有裂缝分割算法在实时桥梁健康监测中面临关键瓶颈,包括对小裂缝和薄裂缝的识别精度不足、计算负担过重以及对复杂现场环境(如阴影和污渍)的鲁棒性差。为解决这些问题,研究团队设计了Dilation-wise Residual(DWR)模块和Light Adaptive-weight Downsampling(LAWDS)模块,分别用于多尺度特征提取和背景噪声抑制,同时保持模型的轻量化特性。实验结果表明,相较于基准模型YOLOv11,所提出的模型在精度、召回率和mAP50指标上分别提升了11.8%、5.9%和7.3%,模型大小减少了23%。此外,与现有方法(如Unireplknet、Fasternet、EfficientViT)的比较实验进一步证明了其在平衡准确性和效率方面的优越性,尤其是在边缘设备上的推理速度达到58 FPS,使得现场实时检测成为可能。这项研究为桥梁裂缝分割提供了新的技术解决方案,为桥梁结构健康监测的高效性奠定了坚实基础。

桥梁是交通基础设施的关键组成部分,其结构完整性直接影响公众安全、经济发展和国家安全。裂缝作为桥梁结构退化的早期预警信号,包括钢筋腐蚀、疲劳损伤和潜在坍塌等。因此,及时检测和监控桥梁混凝土裂缝对于维护桥梁的正常使用、延长使用寿命和防止灾难性故障至关重要。然而,传统的裂缝检测方法,如人工检查和非破坏性检测(NDT),通常耗时、费力且主观性较强。为解决这些问题,计算机视觉和深度学习技术被引入,用于桥梁混凝土裂缝的自动分割。近年来,许多研究聚焦于开发有效的裂缝分割算法。早期方法依赖于传统图像处理技术,如阈值分割、边缘检测和形态学操作。例如,Ren等人应用了Otsu阈值和Sobel边缘检测,但未能有效处理复杂背景和变化的光照条件。Li等人使用了局部自适应阈值方法,但其在低对比度图像上表现不佳。这些方法通常缺乏鲁棒性和泛化能力,难以适应实际应用中多样化的桥梁环境。

随着深度学习的兴起,卷积神经网络(CNN)在裂缝分割领域取得了显著进展。语义分割模型如U-Net和DeepLabv3+展示了通过学习层次化特征和捕捉上下文信息来提升性能的潜力。例如,Yang等人改进了U-Net,引入了密集连接的空洞空间金字塔池化模块,实现了对桥梁裂缝数据集的更高精度。然而,这些模型通常需要大量的计算资源,且在实时应用中表现不佳,限制了其在边缘设备上的部署。

YOLO系列模型因其在实时应用中的速度和效率而受到广泛关注。YOLOv5和YOLOv7已被一些研究人员用于裂缝检测。例如,Zhang等人将YOLOv5与轻量级主干网络结合,以提高桥梁图像中裂缝的检测速度。然而,标准的YOLO变体往往在速度和精度之间做出取舍,特别是在检测小裂缝和薄裂缝时,其精度较低。此外,这些模型由于基于锚点的设计和有限的感受野,可能无法有效捕捉细节特征。为克服这些局限性,最近的研究探索了结合分割和检测网络的混合方法。例如,Chen等人提出了一种两阶段框架,使用YOLO进行裂缝定位,再使用U-Net进行精确分割,但增加了计算复杂度。其他研究人员则引入了注意力机制和多尺度特征融合,以提升裂缝检测性能。Li等人在轻量级U-Net中引入了GHPA(Group multi-axis Hadamard Product Attention)模块,提高了对不同裂缝尺寸的特征提取能力。Deng等人使用了渐进式增长去噪扩散概率模型(PG-DDPM)进行数据增强,以应对小样本场景下的标签数据稀缺问题。最近,元学习和基于Transformer的架构进一步拓展了结构损伤分割的研究边界,解决了小样本适应和通用损伤泛化等关键挑战。Xu等人提出了一个任务感知的元学习范式,利用特征密度聚类生成可解释的训练任务(而不是随机采样),并结合双阶段优化框架,以适应有限图像的多类型结构损伤。该方法在仅5个支持样本的情况下,实现了81.6%的平均mIoU,但其推理速度(28 FPS)未能满足现场实时检测需求。Fan等人引入了一个基于循环一致性约束的少样本学习框架,通过结合循环一致的Transformer来过滤无关的支持像素特征,并增强对多类型损伤的泛化能力。它在0.2-0.5 mm裂缝检测中实现了89.8%的召回率,但模型体积较大(58.2 MB),限制了其在资源受限的边缘设备上的部署。针对跨场景的通用损伤分割,Xu等人开发了一个基于Transformer的大规模视觉模型,结合了教师-学生对比学习,实现了对桥梁和地震后建筑场景的高鲁棒性(平均mIoU为76.2%)。然而,其较大的主干网络(128 MB)导致了较高的延迟(18 FPS),使其在实时动态监测中不太适用。

尽管桥梁混凝土裂缝分割领域取得了进展,但仍存在一些挑战。首先,当前模型往往在速度和精度之间做出妥协,难以满足实时场景的需求。其次,桥梁图像中的复杂背景,如油渍或不均匀纹理,对现有算法提出了挑战。第三,检测极窄裂缝(小于0.2 mm)仍然是一个难题,因为低分辨率图像和模糊特征使得识别变得困难。此外,在标准数据集上训练的模型可能在实际桥梁环境中表现不佳,强调了对方法可适应性的需求。

为解决这些限制,本文提出了一种改进的YOLOv11架构,用于桥梁混凝土裂缝分割。该模型引入了两个新模块,专门针对上述挑战:DWR模块通过并行空洞卷积捕捉多尺度裂缝特征,特别是通过融合细粒度细节和上下文信息来提升对小裂缝和薄裂缝的检测能力;LAWDS模块结合了深度可分离卷积和注意力机制,以抑制背景噪声并减少模型复杂度。消融实验确认了这两个模块的协同效应:与基准YOLOv11相比,所提出的模型在精度、召回率和mAP50指标上分别提升了11.8%、5.9%和7.3%,模型体积减少了23%。与现有方法(如Unireplknet、Fasternet、EfficientViT)的比较实验进一步证明了其在平衡准确性和效率方面的优越性,尤其是在边缘设备上的推理速度达到了58 FPS,使得现场实时检测成为可能。该工作为实现高精度和轻量化性能之间的平衡提供了新的技术方案,为桥梁结构健康监测的高效性奠定了坚实基础。

研究重点包括:(1)多尺度特征融合设计:引入DWR模块,通过并行卷积捕捉不同尺度的裂缝特征,旨在提升对小裂缝和细裂缝的检测能力;(2)注意力机制的集成:LAWDS模块通过计算注意力权重来突出裂缝区域,抑制背景干扰,从而减少后续层需要处理的冗余信息,不仅提高了模型效率,还增强了其轻量化特性;(3)轻量级主干网络优化:通过将LAWDS和DWR模块嵌入YOLOv11主干网络中,优化了模型结构,使其能够在资源受限的设备(如现场桥梁检测平台)上实现实时推理,同时保持高分割精度。

LAWDS模块通过使用深度可分离卷积和区域特定的注意力机制,显著提升了裂缝分割模型的轻量化性能。首先,深度可分离卷积在下采样步骤中减少了参数数量,相较于传统卷积,有效降低了计算成本。其次,注意力机制有助于模型聚焦于特征图中的相关区域,通过强调可能包含裂缝特征的区域,减少后续层需要处理的冗余信息,从而提升模型效率并实现轻量化。该模块的引入不仅有助于模型在复杂背景下的表现,还提升了其对不同环境的适应能力。

DWR模块则通过引入并行空洞卷积(空洞率分别为1、3、5)来捕捉不同尺度的裂缝特征。空洞率1对应于标准卷积,用于局部特征提取;空洞率3和5则用于捕捉中等范围和长范围的上下文信息。这种并行设计减少了计算负担,同时保持了多尺度特征提取的能力。DWR模块还结合了残差连接,通过将原始输入与处理后的特征相加,确保了模型在训练过程中的稳定性,避免了梯度消失问题。这种设计使得模型能够在不同尺度上进行有效的特征提取,从而提升裂缝检测的准确性。

此外,DWR模块的引入对模型的轻量化做出了重要贡献。首先,初始的3×3卷积将输入通道数从c减少到c/2,有效降低了后续操作的计算负载,不仅减少了参数数量,还降低了内存占用。其次,通过使用并行卷积,DWR模块以更高效的方式提取多尺度特征,相较于传统方法,减少了参数数量和计算复杂度,使得模型结构更加紧凑。这些改进使得模型能够在实际应用中保持较高的检测精度,同时满足实时性和资源限制的要求。

在实验部分,研究团队使用了一座位于湖北省的钢筋混凝土箱梁桥作为测试对象。该桥是重要的交通节点,每天承载约25,000辆车辆。为了确保数据的代表性,选择了18个检测区域,包括墩柱基础、跨中段和伸缩缝,这些区域由于循环载荷和环境退化,裂缝容易形成。图像采集使用了同步的双摄像头系统,包括热红外摄像头和可见光摄像头。热红外摄像头(FLIR A655sc)用于捕捉温度分布特征,特别适用于低对比度或低光照条件下的图像采集;可见光摄像头(Basler acA2500-14uc)用于捕捉混凝土表面的高分辨率纹理细节,为裂缝检测提供了主要的视觉数据。两种摄像头在三种光照条件下(直射阳光、多云和黄昏)和四个拍摄距离(0.5米、1米、2米、3米)下同步工作,确保了数据的时间一致性。环境参数,包括环境温度(5-35°C)和湿度(40-90% RH)被记录下来,以验证模型的鲁棒性。摄像头校准使用了9×9棋盘格模式,确保了图像采集的准确性。

为了评估模型的性能,研究团队对数据集进行了分层抽样,将其分为训练集(960张图像)、验证集(120张图像)和测试集(120张图像),保持了8:1:1的比例。数据增强技术,包括高斯噪声注入(±15 dB)、多角度旋转(±30°)和自适应直方图均衡化,分别应用于每个子集,最终生成了7,680张训练图像、960张验证图像和960张测试图像。这种“分层后增强”的协议避免了不同子集之间的交叉污染。裂缝标注由三位认证的桥梁检查员完成,使用LabelMe进行像素级掩码标注,并与通过数字显微镜获得的地面真值测量进行对比验证。标注误差超过5%的图像进行了重新标注,以确保标注的准确性。

在训练环境中,研究团队使用了Ubuntu 20.04操作系统和PyTorch框架。软件环境包括CUDA 11.3、CUDNN 8.2.1和Python 3.8。硬件配置包括AMD Ryzen 9 5950X CPU(基础频率3.4 GHz,64 GB RAM)和NVIDIA GeForce RTX 3090 GPU(24 GB显存)。为了评估模型的性能,研究团队采用了四个评价指标:精度(Precision)、召回率(Recall)、mAP50和mAP50-95。精度表示预测掩码中真实正样本像素的比例,召回率表示预测掩码中真实正样本像素被正确识别的比例,mAP50是预测掩码在IoU阈值为0.5时的平均精度,而mAP50-95是预测掩码在IoU阈值从0.5到0.95以0.05为步长时的平均精度。这些指标能够全面评估裂缝分割模型的性能,考虑到预测掩码在不同IoU阈值下的质量。任务被定义为语义分割(二分类:裂缝/非裂缝),mAP50(M)是针对裂缝类别在IoU=0.5时的平均精度,与实例分割不同,我们关注的是像素级别的裂缝存在性,而不是单个裂缝实例。

通过消融实验,研究团队验证了DWR和LAWDS模块对模型性能的贡献。实验中测试了四种模型变体:基础模型yolo11l-seg、仅包含DWR模块的模型yolo11l-seg-DWR、仅包含LAWDS模块的模型yolo11l-seg-LAWDS以及同时包含DWR和LAWDS模块的模型yolo11l-seg-LAWDS-DWR。实验结果表明,DWR模块的加入显著提升了模型的精度、召回率和mAP50指标。与基础模型相比,yolo11l-seg-DWR的精度从0.83672提升至0.91279,召回率从0.87143提升至0.91169,mAP50从0.8573提升至0.91209。而LAWDS模块的加入则进一步提升了模型的性能,使得yolo11l-seg-LAWDS的精度从0.83672提升至0.89413,召回率从0.87143提升至0.88,mAP50从0.8573提升至0.90112。最终,yolo11l-seg-LAWDS-DWR模型在精度、召回率和mAP50指标上均达到最高水平,分别达到了0.95425、0.93和0.93044。同时,该模型的体积仅为41.98 MB,比基础模型yolo11l-seg减少了23%。这表明,LAWDS模块的参数减少技术和DWR模块的高效多尺度特征提取结构共同作用,使得模型在保持高性能的同时更加紧凑。

与现有方法(如Unireplknet、Fasternet、EfficientViT)的比较实验进一步证明了该模型在准确性和效率上的优势。实验在相同的环境下进行,使用相同的设备和图像预处理流程。比较结果表明,所提出的模型在多个指标上均优于其他方法。例如,在精度(Precision)指标上,该模型达到了0.9543,而Unireplknet的精度为0.9256,Fasternet的精度仅为0.5838,EfficientViT的精度为0.8423。在召回率(Recall)指标上,该模型达到了0.93,而Unireplknet的召回率为0.8233,Fasternet的召回率为0.8200,EfficientViT的召回率为0.7705。此外,在mAP50指标上,该模型达到了0.9304,显著高于其他方法。这些结果表明,该模型在桥梁混凝土裂缝分割任务中表现优异。

模型的推理速度在NVIDIA Jetson AGX Xavier边缘设备上达到了58 FPS,满足了现场实时检测的需求。在高性能设备NVIDIA RTX 3090上,模型达到了120 FPS,推理延迟仅为8.3 ms。这些速度优势使得该模型能够在边缘设备和桌面GPU上灵活部署,既适用于现场实时检测,也适用于批量处理检测数据。模型的推理设置统一,包括硬件(NVIDIA Jetson AGX Xavier和RTX 3090)、软件(PyTorch 1.12、TensorRT 8.4优化、FP32精度)和批次大小(1),包括预处理(调整大小+归一化)和后处理(掩码阈值处理)。实验结果表明,该模型在实际应用中表现出色,能够处理不同尺度和复杂背景干扰的图像。例如,在光照变化导致的裂缝阴影(图10a和10c)和标记笔绘制的裂缝边缘(图10b)中,该模型均未出现误检,仅在极少数情况下出现漏检。此外,该模型在原始高分辨率图像上经过图像拼接和裂缝块融合后,除极少数点状缺陷外,主要裂缝均被成功分割,展示了其出色的性能。

通过消融实验,研究团队进一步验证了模型的参数设置对性能的影响。例如,在重排参数s的取值上,s=4在精度(0.9543)和推理速度(58 FPS)之间取得了良好的平衡,同时模型体积保持在41.98 MB。虽然s=8在推理速度上更高(65 FPS)且模型体积更小(40.15 MB),但其精度比s=4降低了0.56%。相比之下,s=2的精度略低(0.9512),但模型体积更大(45.32 MB),推理速度仅减少1 FPS。深度可分离卷积的采用使得模型参数减少了72%,相较于标准卷积,有效降低了计算负担。

研究团队还对不同裂缝宽度和环境下的模型性能进行了分层分析。例如,在<0.2 mm的裂缝检测中,该模型的精度为0.892,召回率为0.865,优于YOLOv8-seg的精度(0.875)和召回率(0.832)。在雨天条件下,该模型的精度为0.931,召回率为0.907,分别优于YOLOv8-seg的精度(0.915)和召回率(0.889)。此外,该模型在直射阳光下的精度为0.941,召回率为0.927;在多云下的精度为0.958,召回率为0.935。这些结果验证了模型在不同环境下的鲁棒性,并且在检测细小裂缝方面表现出色。

综上所述,本文提出的改进YOLOv11模型在桥梁混凝土裂缝分割任务中表现出色,通过引入DWR和LAWDS模块,显著提升了模型的精度和效率,同时保持了轻量化特性。实验结果表明,该模型在精度、召回率和mAP50指标上均优于现有方法,并且在边缘设备上的推理速度达到了58 FPS,满足了现场实时检测的需求。该研究为桥梁结构健康监测提供了一种高效且准确的技术方案,具有广泛的应用前景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号