MEFPNet:一种多尺度增强型特征金字塔网络,用于解决相似性干扰导致的变电站表面缺陷检测问题

《Neurocomputing》:MEFPNet: A multi-scale enhanced feature pyramid network for similarity-confounded substation surface-defect detection

【字体: 时间:2026年01月04日 来源:Neurocomputing 6.5

编辑推荐:

  变电站表面缺陷检测面临相似背景干扰、多尺度结构差异和光照变化挑战,本文提出MEFPNet框架,通过上下文感知特征聚合模块(CAFAM)增强全局-局部上下文关联,可学习加权特征金字塔网络(LWFPN)实现自适应多尺度特征融合,以及简化的空间金字塔池化模块(SimSPPF)降低计算成本。实验表明MEFPNet在Substation数据集上mAP@50提升6.64%,在YOLO标注数据集上mAP@50:95提升3.65%。

  
周云飞|葛全博|张明川|何新亮|王冠
河南科技大学,信息工程学院,洛阳,471000,河南,中国

摘要

由于领域变化、光照变化、大规模差异以及视觉上相似的背景,变电站表面缺陷检测仍然是一项具有挑战性的任务。为了解决这些问题,本文提出了一种多注意力增强特征金字塔网络(MEFPNet),这是一种专为解决相似性混淆的变电站设备检测问题而设计的检测框架。首先,设计了一个基于上下文的特征聚合模块(CAFAM),以增强对大规模结构的感知,同时保留复杂背景中的细粒度局部线索。其次,引入了一个可学习的加权特征金字塔网络(LWFPN),以自适应地选择和重新加权层次特征,从而改善跨尺度交互。第三,用轻量级的简化空间金字塔池化(SimSPPF)模块替换了原有的AIFI模块,以低计算成本捕获丰富的空间上下文。实验在两个数据集上进行——变电站数据集和YOLO标注的15类变电站设备真实数据集。结果表明,与基线检测器相比,MEFPNet在准确性和鲁棒性方面表现出色。具体来说,在变电站数据集上,MEFPNet的mAP@50提高了6.64%,mAP@95提高了3.65%,证明了其在实际变电站缺陷检测场景中的有效性和适用性。

引言

变电站是电网的关键基础设施[1],然而,在持续的高压应力下运行以及恶劣的环境中,其表面会不可避免地加速恶化,如腐蚀和开裂,导致严重的经济和安全后果[2]、[3]。及时检测缺陷对于预防性维护至关重要,但传统的人工检测经常受到复杂环境中的安全风险和效率瓶颈的阻碍[4]。尽管配备摄像头的无人机已经改善了可访问性并提高了数据分辨率,但当前的检测工作流程仍然严重依赖于主观的人工解释[5]。这种依赖性使得检测过程容易受到人为错误、疲劳和环境限制的影响,经常导致忽略微妙或非典型的缺陷[6]。因此,迫切需要开发出鲁棒的自动化缺陷检测方法,以实现精确的识别和定位,以支持明智的运营决策[7]。
为了实现自动化检测,已经开发了许多基于视觉的缺陷检测方法。卷积神经网络(CNN)的最新进展[8]催生了多种对象检测器,包括Faster R-CNN[9]、SSD[10]和YOLO[11],以及基于Transformer的模型如DETR[12]。这些方法在各种工业检测任务中取得了有希望的性能[13]、[14]、[15]。然而,当应用于变电站缺陷图像时,它们的有效性常常受到成像条件、目标形态、尺度分布和注释粒度等显著领域差异的影响。为了缓解这些问题,现有研究引入了特定于任务的改进措施,如增强的多尺度特征融合、注意力机制、模态感知设计和针对特定设备或检测场景的数据增强策略[16]、[17]、[18]。虽然这些改进在受限条件下提高了检测性能,但它们通常依赖于有限的数据集或合成数据,仍然依赖于特定设备,并且缺乏在多样化的变电站设备和操作条件下的鲁棒泛化能力[19]、[20]。因此,在存在领域或光照变化以及相似性混淆的场景中实现准确可靠的缺陷检测仍然是一个紧迫的未解决问题。
值得注意的是,其他工业表面检测任务中也遇到了类似的挑战,例如航空发动机叶片损伤检测和复杂设备检测管道,其中缺陷通常很小、对比度低,并且在噪声和光照变化下容易与背景纹理混淆。例如,DLA-Net引入了动态可学习的注意力和任务对齐的动态检测头,以加强多尺度交互并抑制航空发动机叶片的噪声干扰[21]。从更广泛的角度来看,最近的综述和观点强调,鲁棒的缺陷识别必须同时考虑不完美的数据条件、微妙/遮挡的缺陷模式以及实际部署中的效率限制[22]、[23]。这些发现表明,除了处理尺度变化外,有效的检测模型还应明确增强区分性上下文建模并抑制相似背景响应,这在相似性混淆的变电站场景中尤为重要。
与主要针对处理尺度变化的现有多尺度对象检测方法不同,本研究针对的是更具挑战性的问题——相似性混淆的变电站表面缺陷检测,其中缺陷在复杂的光照和材料条件下与背景结构具有很高的视觉相似性且对比度低。简单地聚合多尺度特征是不够的,因为误导性的背景响应可能会与缺陷特征一起被放大,导致误报和漏检。为了解决这一挑战,我们提出了MEFPNet,一种多尺度增强特征金字塔网络,它明确整合了基于上下文的区分能力和可学习的跨尺度选择。通过将全局-局部上下文聚合与金字塔层次间的自适应特征重新加权相结合,MEFPNet在杂乱场景中强调了微妙的缺陷线索,同时抑制了视觉上相似的背景干扰。简而言之,我们的主要贡献总结如下:
  • MEFPNet框架旨在将层次化上下文聚合与自适应跨尺度融合相结合,用于相似性混淆的变电站表面缺陷检测,从而增强低对比度线索的同时保持效率。
  • CAFAM的设计将全局上下文分支与局部注意力相结合,提高了对相似背景中微妙缺陷的敏感性,同时保留了细粒度细节。
  • LWFPN用于自适应地选择和重新加权金字塔层次间的特征,实现了信息丰富的跨尺度交互,提高了小目标的召回率和大结构的表示能力。
  • SimSPPF模块作为AIFI的轻量级替代品,利用共享参数的最大池化和通道压缩来加强杂乱环境下的空间上下文建模和定位,同时保持高效率。
  • 章节片段

    问题描述

    变电站表面缺陷检测是在复杂、领域变化和相似性混淆条件下的视觉识别任务。设输入RGB图像为,其中分别表示像素高度和宽度。
    检测器,由权重参数化,预测一组有限的实例,其中是检测数量,编码了框的中心和大小,是缺陷类别之一,表示相应预测的置信度分数。
    给定一个标记的数据集

    CAFAM:集成全局上下文和局部细节的上下文感知特征注意力模块

    由于缺陷目标存在显著变化,区分相关特征和背景噪声往往具有挑战性,最终影响检测性能。为此,提出了多种专门的检测框架。例如,在[24]中,基于YOLOv5引入了ASD-YOLO模型用于飞机表面缺陷检测。它结合了可变形卷积、全局注意力和上下文增强,以改善对微小缺陷的表示

    实验环境和数据集

    本文中的所有实验都在相同的硬件平台上进行,包括3.70 GHz的Intel? Core? i9-10900K CPU、NVIDIA GeForce RTX 3090 GPU、32 GB RAM和Ubuntu 22.04。编程环境基于Python 3.9,深度学习框架使用PyTorch 2.5.1。所有实现都是使用Python编程语言开发的。实验中使用的参数如表1所示。这些训练超参数是根据广泛采用的

    结论

    本研究解决了在多样化的领域和光照变化条件下,以及在相似性混淆严重的场景中实现鲁棒、准确和可靠的缺陷检测的挑战。我们提出了一个轻量级但具有区分性的检测框架,它结合了基于上下文的特征聚合模块(CAFAM)以实现明确的前景-背景分离,以及可学习的加权FPN(LWFPN),后者执行自适应的、逐通道的跨尺度融合;简化的SimSPPF进一步

    CRediT作者贡献声明

    周云飞:撰写——审稿与编辑,撰写——初稿,方法论,调查。葛全博:撰写——审稿与编辑,监督,资金获取。张明川:撰写——审稿与编辑,监督,概念化。何新亮:撰写——审稿与编辑,数据管理,概念化。王冠:撰写——审稿与编辑,数据管理,概念化。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
    周云飞目前在中国洛阳的河南科技大学信息工程学院攻读软件工程硕士学位。他的研究兴趣包括变电站设备的缺陷检测。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 急聘职位
    • 高薪职位

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号