基于深度学习的隧道表面裂缝自动识别与尺寸量化研究及其在结构健康监测中的应用

《Modelling》：Research on Automatic Recognition and Dimensional Quantification of Surface Cracks in Tunnels Based on Deep Learning

【字体：大中小】 时间：2025年12月31日 来源：Modelling 1.5

编辑推荐：

　　本综述系统阐述了基于深度学习（Deep Learning）的隧道表面裂缝自动识别与尺寸量化研究。文章聚焦于传统人工检测方法效率低、主观性强及传统图像处理技术在复杂背景下性能不佳的痛点，提出了一种改进的轻量级语义分割网络LiteSqueezeSeg。研究通过构建高质量数据集（10,000张高分辨率图像），实现了裂缝的精确识别（总体准确率达95.15%）与高精度量化（长度、平均宽度、最大宽度相对误差均<5%），并基于MATLAB平台开发了集成智能检测系统，支持自动化裂缝特征提取与标准化缺陷分级，为隧道结构健康评估提供了高效可靠的技术方案。

引言

混凝土结构因其优异的力学性能和耐久性，已成为隧道、桥梁及大坝等基础设施主体结构的首选形式。然而，隧道在运营期间受复杂外部环境及维护管理措施不足等多重因素影响，其内表面易产生裂缝并扩展。这些裂缝会削弱隧道结构的整体承载力和防水性能，加速内部钢筋腐蚀及结构劣化，严重威胁隧道的长期运营安全。因此，对隧道内表面裂缝进行早期识别与评估，并制定相应的预防性维护策略，对于提升结构耐久性、延长使用寿命及保障长期运营安全至关重要。基于裂缝量化检测指标（如长度、宽度），并结合相关规范进行风险等级划分，可为隧道运营管理提供关键数据支持。

传统的裂缝人工检测依赖个人经验判断和主观感知，存在检测效率低、巡检周期长、人为主观性强等局限性。随着计算机视觉理论体系的深入发展和深度学习网络架构的持续创新，隧道领域自动化裂缝检测技术的成熟度显著提升。当前，基于深度学习的裂缝检测方法主要可分为三类：专门用于判断裂缝有无的分类算法、同时解决裂缝识别与定位的目标检测算法，以及能够实现裂缝与背景像素级区分的分割算法。

在图像分类领域，LeNet-5模型提出了“卷积-池化-全连接”架构，为卷积神经网络在计算机视觉领域的发展奠定了核心框架。GoogleNet模型通过设计Inception深度卷积网络模块，在图像分类任务中取得了较低的误差率。有研究通过集成多个支持向量机并结合人工蜂群优化算法，实现了较高的分类准确率。另有研究通过改进G-set网络，引入全局平均池化层和批量归一化层，调整Softmax分类器，优化学习率、激活函数和卷积核大小，提升了识别精度。然而，部分方法虽具有较强的裂缝检测能力，但精度较低；或虽分类准确率高，但裂缝分类标准精度不足。

在目标检测领域，YOLO系列模型以其独特的设计理念和出色性能成为研究热点。从YOLOv1直接预测边界框和类别概率，到YOLOv2设计Darknet-19架构并优化损失函数，再到YOLOv3采用更深层的Darknet-53骨干网络，性能持续提升。有研究针对材料属性变化会显著降低定制模型裂缝检测精度的问题，提出了联合训练、顺序训练和集成学习方法来构建跨材料鲁棒模型。另有研究利用U-Net网络检测混凝土裂缝坑洞分布，并通过翻转和旋转将数据集从1600张图像扩充至6400张，实现了极高的模型精度。还有研究利用YOLOv5、YOLOv8和YOLOv11模型进行砂浆裂缝的分割与量化，在裂缝宽度测量中取得了较低的误差率。

像素级语义分割能够对裂缝区域进行逐像素分类和标记，为结构评估提供精确的几何信息，支持详细分析。有研究回顾了基于机器学习的裂缝检测方法，评估了8种分割模型，发现特定网络结构可提升性能，并指出解决假阳性问题是优化关键。另有研究提出了一种基于上下文感知深度语义分割网络的裂缝视觉检测系统，通过自适应滑动窗口定位图像块，利用SegNet编码器-解码器分配像素标签，再通过CAOPF方案集成，实现了不同环境下裂缝的检测。SegCrack模型采用分层结构Transformer编码器输出多尺度特征，取得了较高的F1分数和mIoU。有研究设计了全卷积神经网络，通过多级提取和类特征优化增强裂缝特征表示。CRTransU-Net水下混凝土裂缝实时分割模型能够解决前景-背景不平衡问题，其分割性能优于U-Net等模型，且裂缝几何尺寸量化结果具有高度一致性。还有研究提出了一种自动裂缝检测、定位和量化的集成方法，整合Faster R-CNN检测裂缝区域，平均检测精度较高。另有研究通过使用垂直和水平压缩注意力模块及高效通道注意力上采样，提高了像素级检测精度。目前，针对裂缝图像的像素级语义分割研究众多，部分达到了理想的检测精度，但模型识别效率仍有提升空间。此外，多数研究仅集中于分割与识别，如何高效地将分割结果转化为结构安全评估的量化参考，并支撑后续工程决策的相关研究和应用方案需进一步推进。

在混凝土裂缝长度和宽度的定量分析领域，有研究开发了专门用于建筑物外部裂缝的开源自动检测软件，在检测裂缝总长度估计中的误差控制在一定范围内。另有研究通过图像预处理、机器学习算法设计和Python脚本开发等一系列技术流程，实现了对最大面积裂缝的定量分析。R-FPANet裂缝检测方法通过引入通道注意力模块和位置注意力模块，加强了特征间的依赖性和相关性，能够在像素级定量分析裂缝面积、长度、平均宽度和最大宽度等核心几何参数。有研究通过优化改进CDDS网络，利用SegNet的核心架构准确提取裂缝尺寸参数，将裂缝长度量化为骨架像素的累积计数，裂缝面积由裂缝预测掩码中的像素总数确定，进而推导平均裂缝宽度。还有研究基于YOLOv2模型对混凝土跑道板的横向裂缝进行了自动检测、尺寸测量和位置定位研究，裂缝检测的平均精度满足工程实际部署要求，并能进一步实现裂缝在混凝土板内的位置定位及长度、宽度参数的计算。现有研究在裂缝的定量维度和场景适应性方面仍存在明显局限性。针对隧道场景中照明昏暗、光照遮挡及裂缝分布模式复杂等问题，复杂隧道环境下混凝土裂缝的精确定量分析仍是当前研究热点。

为实现隧道混凝土内表面裂缝的快速准确识别，本研究提出了LiteSqueezeSeg网络，该网络是基于开源语义分割模型SqueezeNet的增强版本。其核心创新在于以“轻量级语义分割”为核心目标。先前已有研究将LiteSqueezeSeg方法与其它轻量级模型进行比较，表明LiteSqueezeSeg的参数数量仅为GoogleNet的一半，并且在准确率、交并比和F1分数三个核心评估指标上均优于MobileNet。所提出的网络被应用于混凝土表面裂缝宽度的精确检测和定量测量，并将分割结果与既定行业标准相结合，为监测和评估隧道结构状况提供科学依据。

裂缝识别

深度学习技术通过构建具有多层非线性变换的深度神经网络模型，利用海量数据进行自动特征学习，实现复杂任务的端到端自动化处理。在裂缝识别领域，由于裂缝通常表现为局部、细长、边缘复杂的目标，卷积神经网络凭借其独特的局部感受野、权重共享和池化操作，能够高效提取图像中的空间层次特征，有效提升复杂背景下小目标识别的准确性和目标提取的鲁棒性。因此，本研究选择卷积神经网络算法开展裂缝的深度学习识别研究，并针对性地改进了开源语义分割模型SqueezeSeg，使其能够有效提取裂缝的局部空间特征。

数据集准备

标注图像是像素级语义分割的基础。研究使用Image Labeler工具对总计10,000张JPG格式图像进行了像素级和区域级标注。其中，6000张图像来源于Surface Crack Detection公共数据集，其余4000张通过对约500张隧道内表面图像进行几何变换（旋转、翻转、裁剪）生成。采用针对性的图像处理技术对原始图像进行预处理：通过亮度均衡算法校正光照不均问题，利用图像去噪和污渍分割技术消除表面杂质干扰，结合对比度增强和锐化等操作增强裂缝区域的视觉特征。通过上述预处理流程，有效提高了图像的一致性和目标区域的可区分性。相应的标注标签以PNG格式存储。

数据集中裂缝分为隧道内表面三种典型裂缝类型：纵向裂缝（占标注样本的48%）、环向裂缝（35%）和网状裂缝（17%）。为增强结果可靠性，将4000张增强样本进行划分，其中3200张用于模型训练，800张作为独立验证集，专门用于验证LiteSqueezeSeg模型对未见过的隧道裂缝数据的泛化能力。

LiteSqueezeSeg网络模型

图像语义分割是一项计算机视觉任务，涉及为图像内的每个像素分配精确的类别标签。在隧道结构裂缝检测中，实现像素级精度要求模型在裂缝与背景区域边界处表现出细粒度的判别能力。本研究采用的LiteSqueezeSeg架构是一种轻量级且高效的卷积神经网络。与Deeplabv3+和Inceptionresnetv2等传统大规模语义分割模型相比，其参数量显著减少，但在裂缝分割任务中仍保持有竞争力的性能。该架构有效捕捉裂缝的关键特征（包括纹理和形状），能够准确区分裂缝和非裂缝像素，从而为隧道结构检测中的可靠像素级检测提供支持。

该网络结构大致可分为三个阶段：特征提取、特征恢复和分类。LiteSqueezeSeg是从开源轻量级语义分割模型SqueezeSeg衍生而来的增强型深度神经网络。专为裂缝识别设计，它以较低的计算开销实现高效能，适用于多种操作环境的部署，并可用于裂缝识别、量化和分割任务。相比之下，原始SqueezeNet架构主要由顺序连接的Fire模块组成，编码器逐步降低空间分辨率同时增加通道深度。其解码器相对简单，通常使用转置卷积进行直接上采样；然而，由于最终输出层直接预测类别图，在深度网络设计中需要进行某些架构修改以实现有效的逐像素分类。

基于这些基础，LiteSqueezeSeg保留了Fire模块的并行分支设计，但采用了更灵活的配置。一方面，它集成了带有跳跃连接的编码器-解码器框架（受U-Net启发），解码器执行多阶段渐进上采样；每次上采样后，生成的特征图与编码器路径中相应空间分辨率的特征图进行逐元素融合。另一方面，LiteSqueezeSeg省略了原始SqueezeSeg严格的1×1压缩步骤，同时保留了SqueezeNet的并行分支结构——这是对Fire模块的针对性调整，旨在最大化特征保留（避免空间细节丢失），而不损害轻量级性能或增加计算复杂度。该设计将SqueezeNet的高效并行卷积分支与U-Net的编码器-解码器架构及逐元素相加融合的跳跃连接相结合，实现了高效计算与细粒度分割之间的平衡，从而克服了SqueezeSeg纯编码器设计和U-Net高计算成本的局限性。

随着深度学习技术的快速发展，基于深度神经网络的裂缝检测方法日益展现出显著优势。特别是LiteSqueezeSeg架构在裂缝检测领域显示出巨大潜力。鉴于裂缝形态和宽度特征在结构健康评估中的关键作用，本研究利用MATLAB深度学习工具箱和深度网络设计器，开发了基于LiteSqueezeSeg的、专用于裂缝检测任务的语义分割模型。该模型不仅能有效判断图像中是否存在裂缝，更重要的是能够实现裂缝区域的精确像素级定位和分割。实验结果表明，所开发的语义分割网络成功重建了裂缝目标区域，提供了高质量的像素级输出，便于裂缝几何参数（如宽度和长度）的准确测量，并支持全面的结构健康评估。与常规裂缝检测方法相比，所提方法在达到相当或更优检测精度的同时，显著增强了模型的泛化能力和实际适用性。在软件配置方面，本实验在Windows 11操作系统上使用MATLAB进行，以Deep Learning Designer作为主要深度学习框架。本研究中使用的LiteSqueezeSeg模型是从轻量级语义分割模型SqueezeSeg衍生而来的增强型深度神经网络架构，能够在保持低计算复杂度的同时实现裂缝识别的高精度。

基于LiteSqueezeSeg网络模型的裂缝识别效果

在检测任务中，采用交并比作为评估指标。该指标量化了预测输出与真实标注之间的重叠程度。具体而言，IoU计算为裂缝预测与真实标注像素交集面积与并集面积的比值。IoU值范围在0到1之间，值越接近1表示预测准确性越高。

下表展示了LiteSqueezeSeg模型在代表性图像上的裂缝分割性能。第一列显示包含裂缝的原始场景图像。第二列说明模型的预测分割结果，其中青色表示背景，红色表示检测到的裂缝。第三列显示黑色的人工标注裂缝标签。第四列通过叠加模型预测结果与真实标签进行视觉比较：洋红色像素代表假阳性（预测为裂缝但与标签不匹配），绿色像素代表假阴性（标注的裂缝未被模型捕获），黑色像素代表真阳性（预测与标签重叠区域），从而能够直观评估预测准确性。第五列使用IoU指标量化分割性能，该指标衡量预测裂缝区域与实际裂缝区域的重叠程度。较高的IoU值对应较高的分割精度。报告的IoU分数范围在0.72到0.84之间，反映了模型在裂缝检测中稳健且一致的性能。

基于LiteSqueezeSeg网络模型的性能分析

训练历史和性能评估结果显示，训练精度收敛至约95.15%。对于混凝土结构裂缝识别任务，精确率、召回率和F1分数是常用的评估指标。

准确率是指正确预测的正例和负例占总实例数的比例。精确率是指在所有被预测为裂缝的目标中，实际为裂缝的目标所占的比例，反映了模型的误检能力。召回率是指在所有实际为裂缝的样本中，被正确预测为裂缝的样本所占的比例，反映了模型准确检测裂缝的能力。F1分数是一个综合评估指标，是精确率和召回率的调和平均数，用于平衡裂缝检测的准确率和召回率。通常，F1分数越高，表明模型性能越好。

定量评估结果显示，模型在背景类上的性能在所有三个核心指标上均显著优于裂缝类。这种现象源于两个潜在方面：一方面，与裂缝像素的特征有关——其在整幅图像中所占比例极低且分布随机；另一方面，与裂缝的形态特征密切相关。裂缝通常具有狭窄的缝隙和粗糙的边缘，易与图像中的噪声和纹理混淆。这大大增加了将此类干扰误分类为裂缝的风险，最终导致模型在裂缝分割任务的所有评估指标上表现不佳。

本研究所提LiteSqueezeSeg模型的训练结果表明，混凝土裂缝在图像中通常呈现小面积分布特征，且其空间分布是随机的。这一特性导致模型在分割过程中难以正确分类孔洞和表面粗糙点等微小干扰信息为裂缝目标，从而影响分割精度。下表展示了两类（即裂缝和背景）的像素数、总图像像素数、比例频率及相应的权重值。

为缓解上述类别不平衡和误分类问题，模型引入了类别权重机制，权重计算公式为：W = 1 / (2 × f_i)，其中W代表裂缝或背景类别的权重；分母中的“2”是因为这是一个二分类任务（仅裂缝和背景两类）；f_i 表示频率，i 代表裂缝或背景。权重用于调整不同类别在损失函数中的贡献比例，核心目标是增加低频率类别（如裂缝）的损失在总损失中的比例。

为突显所提架构在轻量设计和高精度方面的优越性，进行了与当代先进模型的详尽对比分析。模型在效率和性能之间取得了显著平衡：仅340万个参数（比Mobilenetv2少49%，比Resnet18少84%，比U-Net少89%，比Inceptionresnetv2少95%），延迟为16.33毫秒（比Mobilenetv2快50%，比Resnet18快11%，比U-Net快59%，比Inceptionresnetv2快85%），展现出无与伦比的轻量特性。同时，模型保持了95.15%的高准确率——超过了Mobilenetv2和Resnet18，并接近U-Net和Inceptionresnetv2的性能。此外，模型在IoU和F1分数上优于大多数同类模型，进一步证明了其在综合任务性能上的优越性。总之，该模型作为一种轻量级且高性能的解决方案脱颖而出，在效率上优于现有架构，同时提供了具有竞争力的准确率。

为验证所提模型在隧道裂缝识别实际任务中的有效性，下表展示了MobileNetv2、Inceptionresnetv2和LiteSqueezeSeg在复杂隧道场景（原始图像包含污渍和纹理干扰等典型干扰因素）下的图像语义分割结果。实验可视化结果表明，在此类挑战性环境中，模型的去噪能力和裂缝目标识别精度显著优于MobileNetv2。尽管其裂缝识别精度略低于Inceptionresnetv2，但LiteSqueezeSeg在参数量方面具有明显优势，使其更适用于隧道场景的部署。

实验结果表明，该机制有效平衡了裂缝和背景类的训练权重，实现了两类更均衡的准确率，显著降低了因微小干扰导致误分类的风险，提高了模型识别裂缝目标的可靠性。

裂缝量化与算法验证

算法精度验证

展示了原始和预处理后的裂缝标尺图像。相机成像易受外部环境因素和操作条件干扰，这是图像模糊和反射伪影的主要原因。原始裂缝标尺图像受强光影响，标尺表面出现明显镜面反射区域，导致光线分布不均，整体图像清晰度差。裂缝相关细节被反射光遮蔽，部分区域视觉上粗糙模糊。此外，过度反射或光照不足均会导致整体图像昏暗，裂缝边缘不清晰。因此，需要进行图像预处理以去除噪声，确保图像清晰无反射。预处理后的裂缝标尺图像光线得到有效调整，反射问题完全消除。整体图像亮度均匀，标尺刻度、标记以及裂缝相关细节清晰可辨，呈现出色的视觉效果，为后续裂缝识别和分析提供了清晰的图像基础。

展示了227×227像素图像的示意图。为提升裂缝识别模型性能，对原始裂缝图像进行了数据增强：具体而言，对每张原始裂缝图像实施了包括旋转、水平翻转和垂直翻转在内的变换。通过这些多样化变换，从单张原始图像生成了多个新样本。经过此过程，裂缝样本数量扩充至约200个，为后续裂缝识别模型训练提供了更丰富、更多样化的数据集，有助于提高模型的识别精度和泛化能力。

在对裂缝对比标尺图像中的标准裂缝对比标尺进行位置平移变换时，实现了精确的1像素位移。使用方向键进行微调，严格控制每次操作，确保标尺仅在水平或垂直方向移动1像素。过程中多次验证位移精度，确保标准裂缝标尺按要求准确完成位置平移变换，满足后续裂缝标尺分析或处理的精度要求。

其中，展示了软件裁剪后的图像样本，统一像素尺寸为227×227。这批标准化图像主要用于构建裂缝识别模型的精度验证数据集，为后续定量评估模型识别精度、定位精度和抗干扰能力提供标准化数据支持，确保模型性能验证结果的可靠性和可比性。

模型预测结果示意图展示了从原始图像输入到预测结果输出的过程。原始图像大小为227×227像素，图像中的黑色条带代表宽度为0.9毫米的裂缝对比图标尺，用于模拟裂缝。标注图像是原始图像中裂缝和背景的标注结果。验证结果叠加图将模型预测的裂缝区域叠加显示在原始图像上。右图红色部分代表预测的裂缝区域，青色代表背景区域。与标注图像比较，可直观评估模型的裂缝识别精度，并验证其有效区分裂缝与背景的能力，为后续模型性能分析和优化奠定基础。

展示了图像中裂缝的分布特征：对应227×227像素图像，呈现了从左到右各列的裂缝宽度分布。裂缝平均宽度为2.08毫米，最大宽度为2.13毫米，清晰反映了裂缝从左到右的宽度特征及变化规律；呈现了从上到下各行的裂缝长度分布，平均长度为9.94毫米，最大长度为10.02毫米，清晰反映了裂缝在长度方向的特征及变化规律。两图的分布结果共同准确呈现了裂缝萌生、变化和终止的空间分布特征，为从空间维度理解裂缝发展特征提供支持。

展示了5个随机选取的裂缝样本的宽度预测结果。图中数据分布表明，模型输出的各裂缝平均预测宽度普遍高于相应实际宽度。此外，不同裂缝样本间的偏差幅度存在显著个体差异，反映了模型预测偏差受裂缝自身固有特性影响的异质性。

通过裂缝平均宽度相对误差进一步定量表征了这种预测偏差，数据显示裂缝1至5的平均相对宽度误差分别为2.22%、3.00%、4.50%、1.67%和2.80%。

通过对裂缝分布视觉特征和定量预测精度数据的综合分析，可得出以下观察结果：首先，所有测试样本的预测裂缝宽度均持续超过实际测量值。这种统计上一致的趋势揭示了预测值与观测值之间的系统性偏差，表明模型的裂缝宽度预测存在明显的过高估计模式。其次，所有验证样本的相对误差均保持在预设的5%阈值内，完全符合结构健康监测实践中评估裂缝检测算法所建立的可接受误差范围。尽管存在系统性高估偏差，但基于整体准确率的综合评估表明，该模型对于工程应用仍保持高可靠性和实用性。因此，它非常适合满足隧道结构健康监测中定量裂缝宽度评估的要求。

裂缝定量分析

有研究提出了一种校准因子，以实现像素尺度与物理尺度之间的转换。该因子定义为实际宽度与像素宽度的比值，能有效最小化转换过程中的缩放误差。遵循此方法，本研究采用预先确定的每个像素的物理尺寸（记为α），将裂缝测量值从像素尺寸转换为相应的真实世界物理尺寸。通过利用预校准参数，建立了基于像素的测量值与物理单位之间精确且一致的映射关系，从而为后续在物理尺度上进行的定量裂缝分析提供了可靠基础。转换公式为：W = α w，其中W是实际裂缝宽度（毫米），α是单位像素点的实际尺寸（毫米/像素），w是输入图像中裂缝的像素尺寸（像素）。

校准的核心在于建立机器视觉系统生成的像素坐标与工程背景下相应的毫米物理尺寸之间的精确映射关系。此过程的一个关键方面是确定与实际长度单位对应的像素数量。例如，在实际场景中，如果10毫米的物理长度对应于捕获图像中的222个像素，则可以明确计算像素坐标与毫米尺度测量值之间的转换比率。为最小化透视变形的影响，图像采集期间校准靶标必须与手机图像传感器平面保持平行。当相机焦距为23毫米时，拍摄距离与单个像素所代表的真实世界尺寸之间的关系被清晰描绘。

相机与裂缝之间的直线距离可通过激光测距技术精确获取。该技术基于激光脉冲发射和反射的时间差，结合光速恒定的物理原理，可快速准确计算相机镜头平面与裂缝表面之间的空间间隔，为后续基于图像的裂缝尺寸定量分析提供关键距离参数。

下表展示了裂缝宽度的计算结果，涵盖了原始裂缝和预测裂缝宽度。对于每个图像样本，测量了原始裂缝，并测量了通过预测识别的裂缝的长度、平均宽度和最大宽度（均以像素为单位）。第一列显示原始裂缝图像，第二列显示预测的裂缝区域（其中“BG”代表背景，“Crack”标记预测的裂缝区域），第四至第六列详细说明了各种裂缝的定量测量结果。

基于通过激光测距获得的实际距离参数，实现了像素与物理尺寸之间的转换。为抵消图像畸变和相机系统误差的影响，引入了张正友相机标定法来精确求解相机的内参（焦距、主点坐标、畸变系数）和外参。该方法捕获具有多姿态的棋盘格标定板图像，基于透视投影约束构建模型，并迭代优化参数，有效校正径向/切向畸变。

具体标定过程如下：采用标准棋盘格标定板（5毫米×5毫米网格尺寸），在隧道现场捕获20组多姿态标定图像；通过OpenCV开源库中的标定模块进行角点检测和亚像素级提取（剔除噪声引起的异常角点后），求解相机的内参/外参矩阵和畸变系数；最后通过重投影误差验证标定精度，本研究中标定后的平均重投影误差控制在0.5像素以内，满足隧道裂缝检测中像素-物理尺寸转换的精度要求。经过标定和校正后，有效校正了图像像差引起的几何畸变，显著降低了相机系统误差对尺寸转换的影响，结合激光测距获得的物距参数

热点排行