《Displays》:FS-Mamba: A state-space detector with frequency-domain decoupling and super-resolution assistance for small traffic agents in UAV aerial imagery
编辑推荐:
针对无人机图像中小型交通目标的检测难题,提出FS-Mamba检测器。通过频域解耦策略在特征提取与融合阶段注入高频细节,频率保持上采样模块减少特征损失,金字塔双融合注意力模块优化多尺度特征,结合训练时超分辨率辅助机制提升细粒度特征,实验表明其优于YOLO系列及传统Mamba检测器。
Xinyu Di|Yonghua Lu|Tianxing Xiao|Yujie Diao|Yinlong Zhu
南京航空航天大学机械与电气工程学院,中国江苏省南京市210016
摘要
在无人机(UAV)图像中检测小型交通目标具有挑战性,因为这些目标的尺寸很小,背景复杂。为了解决这个问题,我们提出了FS-Mamba,这是一种基于状态空间的小型目标检测器,它利用频域解耦和超分辨率辅助技术。具体来说,在特征提取和融合的关键阶段应用了频域解耦策略。在主干网络中,频域门(FDGate)保留了高频细节;而在特征融合阶段,保频上采样(FPU)模块有效增强了关键特征。在此基础上,金字塔双重融合注意力模块(PDFAM)进一步细化了融合特征,抑制了背景噪声并处理了尺度变化。为了实现超分辨率辅助,我们引入了一种新的训练机制,通过仅用于训练的辅助头在无需额外推理成本的情况下提升了模型的特征表示能力。在VisDrone、UAV-ROD和WX-Road等数据集上的实验表明,FS-Mamba在小型目标检测精度方面始终优于YOLO系列和其他基于Mamba的检测器。
引言
在无人机(UAV)图像中检测交通目标(如车辆和行人)对于交通监控、多目标跟踪和目标定位至关重要[1]、[2]。这些应用的性能直接取决于对空中目标的有效识别[3]、[4]。与固定的地面相机不同,无人机平台具有宽广的视野、灵活的部署方式以及快速覆盖大规模道路网络的能力。因此,开发可靠的UAV图像交通目标检测方法已成为智能交通和计算机视觉领域的研究重点。
然而,在UAV图像中检测交通目标比在自然场景中检测目标要困难得多。飞行高度和相机姿态的变化会导致目标尺寸的剧烈变化以及视角依赖的遮挡现象,如图1所示。更重要的是,大多数目标只占据少数几个像素,导致特征丢失严重。这些小型目标经常被杂乱的背景、运动模糊或压缩伪影所遮挡[5]、[6]。
这些困难揭示了当前基于深度学习的UAV图像检测器的基本局限性。首先,小型目标检测的核心问题在于高频信息的逐渐丢失:标准的步进卷积本质上具有低通滤波器的功能,逐渐抑制了定义小型目标的高频细节和纹理。其次,在多尺度特征融合过程中,不同分辨率特征的结合常常导致混叠伪影和语义不对齐[7]、[8];在这个过程中,小型目标的微弱信号容易被其他尺度的强高频信号所掩盖。最后,检测精度最终取决于学习到的表示质量。仅以检测为目标训练的模型可能难以区分接近分辨率极限的目标[9]。
为此,我们提出了FS-Mamba,这是一种专为UAV图像中的小型交通目标设计的基于状态空间的检测器。它结合了频域解耦策略和超分辨率辅助机制,共同增强了高频细节,稳定了多尺度融合,并加强了细粒度表示。本研究的主要贡献如下:
- (1)
我们在主干网络中引入了频域门(FDGate)来对抗细粒度信息的丢失。该模块使用门控高通滤波器在早期阶段有效注入关键的高频线索,同时参数极少。
- (2)
我们为特征融合阶段开发了保频上采样(FPU)模块,以解决尺寸变化过程中的特征退化问题。通过其双门控机制,FPU能够明确保留结构信息,从而实现分辨率提升和噪声抑制。
- (3)
我们将金字塔双重融合注意力模块(PDFAM)集成到融合模块中。该模块重新调整了多尺度特征,增强了目标响应的显著性并抑制了背景噪声,解决了大尺度变化的问题。
- (4)
我们设计了超分辨率(SR)辅助训练策略,指导网络在无需额外计算开销的情况下学习细节。通过仅用于训练的辅助重建头,该策略在部署时实现了额外的性能提升。
本文的其余部分结构如下:第2节回顾了UAV目标检测和状态空间模型(SSM)的相关工作。第3节介绍了FS-Mamba的设计,重点介绍了频域解耦设计、基于注意力的特征细化和超分辨率辅助策略。第4节提供了广泛的消融实验和比较实验,以验证FS-Mamba的有效性和优越性。最后,第5节总结了本文并展望了未来的研究方向。
部分摘录
通用目标检测器
现代目标检测技术主要得益于深度卷积神经网络(CNN)的进步。现有架构通常分为两阶段和一阶段方法。两阶段检测器(如R-CNN系列[10]、[11])首先生成一组稀疏的区域提议,然后对它们进行分类。虽然这种级联方法通常能够实现高精度,但提议生成步骤往往会导致较大的计算开销
实验环境
为了确保可重复性和严格的公平性,所有实验都在相同的设置下进行训练和评估。实现基于PyTorch 2.1.1框架和CUDA 11.8支持,在配备Intel Core i9-10900KF CPU和NVIDIA RTX 3090 GPU的Windows 10工作站上执行。
至关重要的是,为了消除由于实现细节导致的性能差异,所有比较的先进方法都使用其官方代码库从头开始重新训练
结论
在这项工作中,我们提出了FS-Mamba,这是一种专为UAV图像中的小型目标检测设计的架构。通过将频域先验与状态空间模型(SSM)相结合,我们的方法有效平衡了全局上下文建模和局部细节保留。具体来说,FDVSSBlock将高频线索融入主干网络,而FPU模块在特征重建过程中减少了结构损失。此外,PDFAM通过
利益冲突声明
作者声明他们没有已知的财务利益冲突或个人关系可能影响本文所述的工作。
致谢
本工作得到了国家自然科学基金(编号:51975293)的支持。