基于Wavelet-DETR的多尺度注意力Transformer框架在无人机工程任务中的小目标检测研究

【字体: 时间:2025年06月25日 来源:Results in Engineering 6.0

编辑推荐:

  为解决无人机(UAV)在复杂场景下小目标检测精度低、实时性差的问题,研究人员提出WDFS-DETR框架,集成Wavelet变换(WTConv)、双阶段自适应归一化(DSAN)和边界感知Slide-VarifocalLoss等创新模块。实验表明,该模型在VisDrone2019数据集上mAP@0.5提升2.2%,Jetson Orin Nano平台推理速度达50.1 FPS,为资源受限的无人机平台提供了高效检测方案。

  

随着无人机(UAV)在环境监测、灾害救援等领域的广泛应用,如何在复杂背景下实现小目标的高精度实时检测成为关键挑战。传统卷积神经网络(CNN)存在感受野有限、长程依赖建模不足等问题,而现有基于Transformer的检测器如DETR又面临计算成本高、小目标特征提取能力弱等瓶颈。特别是在无人机视角下,目标通常仅占图像面积2%以下,且存在尺度变化大、背景杂乱等干扰因素,亟需开发兼顾精度与效率的新型检测框架。

针对这一难题,研究人员构建了WDFS-DETR(Wavelet-based Dual-stage Feature-enhanced Detection Transformer)模型。该工作基于RT-DETR框架进行创新性改进,通过四个核心模块协同优化:BasicBlock-WTCM模块整合Wavelet变换卷积(WTConv)与多通道坐标注意力(MCCA),实现跨尺度的空间-通道语义建模;DSAN机制动态切换LayerNorm与重参数化BatchNorm(RepBN),平衡训练稳定性与推理效率;FFDPN网络通过层次化特征对齐增强多尺度上下文感知;Slide-VarifocalLoss则融合滑动窗口机制与类别重加权策略,有效缓解边界模糊和类别不平衡问题。

关键技术方法包括:1) 采用VisDrone2019、UAVDT和DOTA三个无人机数据集进行跨域验证;2) 设计WTConv进行多级小波分解,通过LL/LH/HL/HH四通道特征提取增强小目标表征;3) 在Jetson Orin Nano边缘平台部署测试实时性能;4) 通过消融实验验证各模块贡献度。

研究结果显示:在VisDrone2019测试集上,WDFS-DETR以47.5%的mAP@0.5显著优于RT-DETR-r18(45.3%)和YOLOv8l(45.8%),其中自行车和摩托车类别检测精度分别提升1.6%和2.6%。可视化分析表明,该模型在密集人群、夜间场景等挑战性条件下均保持稳定性能,对遮挡目标的召回率提升显著。在计算效率方面,模型参数量仅19.9MB,FLOPs降低至53.7G,边缘部署时延33.6ms,较基线模型提速30%。跨数据集测试中,UAVDT和DOTA上的mAP@0.5分别达到31.2%和72.4%,证实其良好的泛化能力。

讨论部分指出,该研究的创新性体现在三个方面:首先,WTConv与MCCA的联合设计首次将频域分析与空间注意力结合,有效增强小目标的几何特征感知;其次,DSAN机制通过动态归一化策略解决Transformer在边缘设备部署时的性能衰减问题;最后,Slide-VarifocalLoss为密集场景下的边界定位提供了新优化范式。局限性在于当前未评估红外等跨模态数据适应性,未来将通过量化压缩进一步优化边缘计算效率。

这项发表于《Results in Engineering》的工作,为无人机工程应用提供了首个融合Wavelet理论与Transformer的轻量化检测方案,其模块化设计思路对遥感图像分析、移动端视觉计算等领域具有重要参考价值。开源代码已发布在GitHub平台,助力相关技术的产业化落地。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号