用于无人机小目标检测的双域注意力机制

《Engineering Applications of Artificial Intelligence》:Dual-domain attentions for unmanned aerial vehicle small object detection

【字体: 时间:2025年10月22日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  针对无人机图像中微小物体检测存在的低分辨率和复杂背景干扰问题,本文提出双域注意力机制D2A-Detector。该模型通过空间域的SFTAConv模块减少特征损失,频率域的FD-HAT模块重建高分辨率特征,并引入CAL分支平衡分类与定位任务。实验表明,在VisDrone2019Det、DOTA和PASCAL VOC上,AP和APs指标分别提升2.2%、1.7%和5.3%,优于现有SOTA方法。

  小目标检测是目标检测领域中的一个关键子方向,专注于对像素数量极其有限的小型物体进行精确的分类和定位。随着无人机(UAV)技术的广泛应用,小目标检测在高分辨率空中图像中的重要性日益凸显。然而,由于环境限制和设备特性,无人机拍摄的图像常常在小目标的质量和分辨率上出现严重退化,这给保留空间细节和频率成分的双域特征带来了巨大挑战。在传统的检测系统中,小目标往往因为特征信息不足、背景干扰严重以及尺度变化等问题,导致其在识别过程中难以被准确捕捉。

为了应对这些挑战,本文提出了一种基于双域注意力机制的小目标检测方法,旨在通过同时关注空间和频率两个维度来提升小目标识别的性能。在空间域方面,我们设计了一种名为“步进无的三注意力卷积”(SFTAConv)的模块,它通过空间-通道交互和一种无损的空间到深度转换机制,减少了特征传播过程中的信息损失,从而增强对小目标细节的捕捉能力,同时抑制背景干扰。在频率域方面,我们引入了一种名为“频率域混合注意力”(FD-HAT)的机制,通过并行处理高频和低频成分,解决了深度特征模糊的问题,进一步恢复对遮挡或模糊小目标的判别能力。

此外,我们还设计了一个“分类辅助定位”(CAL)分支,该分支通过将分类引导的定位信息整合起来,进一步优化检测精度。通过在多个标准数据集上的实验验证,包括“视觉遇见无人机2019”(VisDrone2019Det)、“空中目标检测”(DOTA)以及“PASCAL VOC”数据集,我们的模型在目标检测任务中取得了显著的性能提升。实验结果显示,我们的方法在三个数据集上的平均精度(AP)指标分别提升了2.2%、1.7%和5.3%,并且在多个方面表现出与当前最先进的检测器(SOTA)相当的竞争力。

本文的研究重点在于解决小目标检测中因分辨率和尺度问题导致的特征退化现象。传统的检测方法通常依赖于复杂的网络结构和大量的下采样操作,这虽然在一定程度上提高了计算效率,但也带来了信息丢失的问题,尤其是对小目标的关键特征进行了过度压缩。为了解决这一问题,我们提出了一种基于YOLO X-Tiny骨干网络的双域注意力检测框架(D2A-Detector),该框架结合了三个关键创新模块:SFTAConv、FD-HAT和CAL。SFTAConv模块通过空间-通道交互机制,有效保留了特征信息,减少了信息损失;FD-HAT模块通过并行处理高频和低频成分,解决了深度特征模糊的问题;CAL模块则通过传播语义置信度图,优化了边界框的回归过程。

在实验部分,我们对多个数据集进行了全面评估,以验证所提出方法的有效性。首先,我们介绍了所使用的数据集及其对应的评估指标,随后详细说明了模型的实现细节。接着,我们进行了消融实验,以验证各个模块对整体性能的贡献。实验结果不仅展示了D2A-Detector在VisDrone2019Det数据集上的优异表现,还在DOTA和PASCAL VOC数据集上验证了其良好的泛化能力。通过这些实验,我们进一步探讨了双域注意力机制在小目标检测中的应用潜力,并分析了其在不同场景下的适应性。

本文的创新点主要体现在以下几个方面。首先,我们提出了一种全新的SFTAConv模块,该模块能够通过交互学习机制实现无损的细节特征提取,从而有效提升小目标识别的准确性。其次,我们设计了FD-HAT模块,该模块能够通过自适应调整高频和低频成分,恢复深度特征的清晰度,从而解决小目标在深度特征中被忽略的问题。第三,我们引入了CAL分支,该分支通过将分类和定位任务进行融合,优化了两者的损失平衡,进一步提升了检测的稳定性。最后,我们验证了所提出方法在多个数据集上的性能优势,并展示了其在实际应用中的可行性。

在当前的小目标检测研究中,传统的卷积神经网络(CNN)和Transformer架构各有优劣。CNN在特征提取方面表现出色,但其在处理小目标时容易受到下采样和卷积操作的影响,导致关键特征信息的丢失。而Transformer架构虽然能够捕捉全局依赖关系,但在处理小目标时,由于其依赖于像素级别的注意力机制,往往受到像素覆盖不足的限制,难以建立有效的判别关系。因此,本文提出了一种结合CNN和Transformer优势的双域注意力检测框架,以解决传统方法在小目标检测中的不足。

为了进一步提升小目标检测的性能,我们还对检测头架构进行了优化。传统的检测头往往将分类和定位任务分开处理,这在一定程度上限制了模型对小目标特征的全面捕捉。通过引入CAL分支,我们实现了分类和定位任务的协同优化,使得模型能够在保持分类能力的同时,提升定位的准确性。这一优化策略在实验中表现出良好的效果,特别是在处理遮挡和模糊的小目标时,CAL分支能够通过传播语义置信度图,进一步细化边界框的回归过程,从而提高检测的稳定性。

在实验验证过程中,我们对VisDrone2019Det、DOTA和PASCAL VOC三个数据集进行了系统评估。VisDrone2019Det数据集主要包含无人机拍摄的图像,涵盖了多种场景下的小目标检测任务。DOTA数据集则专注于空中目标的识别,包含了大量的小目标实例。PASCAL VOC数据集则是一个经典的图像识别数据集,涵盖了多种类别目标的检测任务。通过在这些数据集上的实验,我们验证了所提出方法在不同场景下的适用性和有效性。

实验结果表明,D2A-Detector在VisDrone2019Det数据集上的平均精度(AP)指标提升了2.8%,在DOTA数据集上的AP指标提升了2.2%,而在PASCAL VOC数据集上的AP指标提升了5.3%。这些提升不仅表明了双域注意力机制在小目标检测中的有效性,也展示了其在不同数据集上的泛化能力。此外,我们的方法在多个方面表现出与当前最先进的检测器相当的竞争力,这为小目标检测领域提供了一种新的解决方案。

本文的研究成果不仅有助于提升无人机图像中小目标检测的性能,也为其他高分辨率图像中的小目标识别提供了借鉴。通过结合空间和频率两个维度的注意力机制,我们的方法能够有效保留关键特征信息,同时减少背景干扰,从而提升检测的准确性。此外,CAL分支的引入进一步优化了分类和定位任务的协同作用,使得模型能够在处理小目标时更加稳定和高效。

在实际应用中,小目标检测广泛应用于无人机监控、自动驾驶、海上救援系统和医学诊断等多个领域。由于这些应用场景对检测精度和实时性都有较高的要求,因此需要一种能够在保持高分辨率的同时,有效处理小目标的检测方法。本文提出的方法在这些方面表现出良好的适应性,特别是在处理遮挡和模糊的小目标时,能够通过双域注意力机制和CAL分支的协同作用,实现更精确的检测结果。

综上所述,本文提出了一种基于双域注意力机制的小目标检测框架,该框架结合了空间和频率两个维度的优化策略,通过SFTAConv、FD-HAT和CAL三个模块的协同作用,有效提升了小目标识别的性能。实验结果表明,该方法在多个标准数据集上的表现优于现有方法,并且具有良好的泛化能力。本文的研究不仅为小目标检测领域提供了一种新的解决方案,也为其他高分辨率图像中的小目标识别提供了理论支持和技术借鉴。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号