基于特征跨层融合与重建的河道水面目标检测

《Digital Chinese Medicine》:Water surface object detection in river channels based on feature cross-layer fusion and reconstruction

【字体: 时间:2025年10月03日 来源:Digital Chinese Medicine CS1.8

编辑推荐:

  水表面目标检测在复杂河流环境中面临多尺度物体识别和背景干扰两大挑战。本文提出FCFR模块通过跨层特征融合与空间-通道联合重建,有效提升不同尺度目标的检测精度,并设计SRFE模块实现训练时多分支特征提取与推理时单路径高效推理的转换。构建了包含9500张标注图像的UARODD数据集,涵盖16类常见水表面目标。实验表明,在UARODD数据集上,所提算法mAP@0.5达79.6%,较YOLOv11基准提升5%,同时优化损失函数增强密集目标召回率。

  
张恩泽|郭业才|李松斌

摘要

在河道中检测水面物体对于有效的河流监测系统至关重要。然而,现有的物体检测技术在处理复杂且背景多变的环境中检测不同大小的物体时常常存在不足。为了解决这个问题,首先我们提出了一个特征跨层融合与重建模块(Feature Cross-Layer Fusion and Reconstruction Module),该模块通过自适应权重(用于动态调整不同层次特征的重要性)有效地融合了多尺度特征,并采用空间-通道重建机制(分别学习和重建空间和通道维度特征)来减少背景特征的冗余,从而使精确度相比基线模型提高了5.1%。此外,我们引入了一种基于结构重参数化的特征提取模块(Feature Extraction Module),在保持计算效率的同时增强了特征表示能力,使得mAP@0.5的值相比基线模型提高了1%。在这些改进的基础上,我们开发了一种水面物体检测算法,该算法采用了改进的损失函数以提高检测精度。为了全面评估其性能,我们构建了一个专门的水面物体检测数据集(UARODD),其中包含了16种在河道中常见的水面物体类型。该数据集包含了从真实航拍和互联网上收集的9500张图像,共计24534个标注实例,涵盖了全球范围内的各种河流场景。实验结果表明,所提出的算法在该真实世界数据集上的平均精度(mAP@0.5)达到了79.6%,相比YOLOv11基线模型提高了5%。详细的程序代码和权重文件已公开发布在https://github.com/zhangenze1016/FCFR-yolo。

引言

随着城市化的快速发展,河流环境受到了严重影响,因此有效的监测变得至关重要。河道中的水面物体检测在河流监测系统中发挥着重要作用,对于检测非法活动尤为关键。传统方法如人工巡逻和固定监测点存在覆盖范围有限、效率低下和成本高昂的问题。无人机(UAV)航拍结合物体检测技术显著提高了监测效率和准确性,同时降低了成本。在无人机航拍视频中,水生目标通常面临像素分辨率低和特征轮廓模糊的问题,同时还受到天气条件和光照强度变化等复杂河流环境因素的影响;此外,不同类型的水面目标之间存在较大的尺寸差异。因此,开发一种能够适应复杂河流环境和不同物体尺寸的有效检测方法对于提升监测和管理效率至关重要。
现有的基于深度学习的物体检测算法大致可以分为两阶段和单阶段检测模型。经典的两阶段检测模型(如R-CNN)通过候选区域生成和特征提取来实现物体检测。Fast R-CNN通过引入基于R-CNN的感兴趣区域(RoI)池化技术提高了对变形物体的检测精度。Faster R-CNN通过引入区域提案网络(RPN)进一步提升了检测速度。张等人提出了一种改进的Faster R-CNN模型,该模型利用特征融合和锚点优化来提高检测精度。近年来,单阶段检测模型因其性能提升而受到关注,这些模型将物体检测视为回归问题,从而无需生成候选区域。通过处理整个图像作为输入,它们具有更快的检测速度和更好的适应性。李等人通过修改主干网络并添加特征提取层来改进了SSD模型。邓等人提出了ATT-YOLOv5-Ghost算法,该算法集成了高效通道注意力(ECA)模块和Ghost模块,在检测水面漂浮物体方面表现出色。
然而,现有的检测方法在处理尺寸变化较大的物体时面临挑战,因为特征融合不足,有限的感受野限制了不同物体尺寸的检测能力。此外,复杂的河道环境带来了诸如阴天光线昏暗、恶劣天气条件(如雨和雾)以及遮挡物影响物体特征等问题,使得目标检测尤为困难,尤其是对于小物体的识别。在主干网络中的特征提取过程中,多分支结构可以减少信息损失并提高检测精度,但使用多分支结构往往会牺牲检测效率。理想的方法是在保持多分支结构检测精度的同时,实现单路径结构的计算效率。
为了解决这些挑战,本文提出了一种基于结构重参数化的特征提取(SRFE)模块。在训练过程中,SRFE利用多分支结构提取全面信息;在推理阶段,它被重新参数化为单路径结构以确保高效率和低内存消耗。此外,我们还引入了特征跨层融合与重建(FCFR)模块。通过整合原始输入和来自不同层次的特征,FCFR扩展了感受野并重建了特征,从而提高了对不同大小物体的检测能力,并减少了复杂河流背景的干扰。我们还优化了损失函数,以改进对密集分布物体的检测并加速收敛。基于这些模块和检测头组件,我们提出了一种基于无人机的河道水面物体检测网络。本文的主要贡献如下:
  • (1)
    我们构建了一个包含9500张标注图像的大规模无人机河道水面物体检测数据集(UARODD),涵盖了16种类型的河流水面目标,有助于河道中多物体检测的研究。
  • (2)
    我们提出了特征跨层融合与重建技术,不仅加强了不同层次特征之间的关联,提高了对不同尺寸物体的识别能力,还通过空间-通道重建减少了河流环境中背景特征的计算冗余,从而提高了信息利用效率。此外,我们引入了基于结构重参数化的特征提取模块,有效增强了主干网络的特征表示能力。
  • (3)
    基于这些模块,我们开发了一种在准确性和性能上超越现有方法的水面物体检测方法。
  • 方法部分

    方法

    如图1所示,所提出的河道水面物体检测网络由三个主要组件组成:基于结构重参数化特征提取模块的主干网络(采用YOLOv11的主干架构)、特征跨层融合与重建模块(FCFR)以及预测头。其中,C3k2和SPPF+C2PSA是YOLOv11中原本就引入的模块,而SRFE和SCRU子结构在图中有所说明。

    实验

    本节首先介绍实验设置,包括数据集和实验细节,随后描述了实验内容,包括消融研究、与基线模型的比较实验以及在其他公共数据集上的泛化实验。

    结论

    针对复杂河流背景中的多尺度物体检测这一关键挑战,本文提出了一种高效的实时水面物体检测算法。通过引入特征融合与重建机制,该算法显著提升了多尺度目标的检测能力,并提高了对复杂背景干扰的抵抗力。改进的损失函数进一步优化了召回率性能。在相同条件下进行的消融研究显示...

    CRediT作者贡献声明

    张恩泽:研究、撰写——初稿、可视化、撰写——审阅与编辑、软件实现。郭业才:验证、监督、撰写——审阅与编辑。李松斌:方法论、软件实现。
    张恩泽出生于2001年,河南省洛阳人。他于2023年获得南京工业大学信息工程学士学位,目前正在南京信息科技大学攻读硕士学位。他的研究兴趣包括人工智能、计算机视觉和用于物体检测的深度学习模型。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普
    • 急聘职位
    • 高薪职位

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号