UAV-DETR:面向高空无人机图像小目标检测的少参数DETR架构
《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》:UAV-DETR: Few-parameter DETR for Small Object Detection in High-Altitude UAV Images
【字体:
大
中
小
】
时间:2025年12月19日
来源:IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 5.4
编辑推荐:
为解决DETR(DEtection TRansformer)模型在检测高空无人机(UAV)图像中的小目标时存在参数量大、计算复杂且精度不足的问题,研究人员提出了一种名为UAV-DETR的轻量化检测器。该研究通过设计VisUAVBlock模块结合倒残差结构与级联线性注意力,并引入跨通道动态采样机制与Wasserstein距离损失函数,在VisDrone2021数据集上仅以14.1M参数实现了40.1%的mAP@0.5,显著优于YOLOv8m,为轻量化高精度目标检测提供了新思路。
在计算机视觉领域,目标检测技术正以前所未有的速度发展,广泛应用于体育转播、自动驾驶、安防监控等场景。然而,当视角从地面转向高空,无人机(Unmanned Aerial Vehicle, UAV)拍摄的图像带来了全新的挑战。与平视视角不同,无人机通常在高空作业,导致图像中的目标尺度极小,且常常伴随着复杂的背景干扰,如树木、建筑物的遮挡,以及目标之间的相互聚集。这些因素使得传统目标检测器在无人机图像上的表现大打折扣。
为了应对这些挑战,研究者们主要沿着两条路径进行探索。一条路径是设计“由粗到精”的检测框架,虽然精度较高,但往往依赖于庞大的参数量和计算资源,难以在实际应用中部署。另一条路径则专注于开发轻量化的模型,通过剪枝、量化、知识蒸馏等策略来降低模型复杂度,但往往以牺牲精度为代价。近年来,DEtection TRansformer (DETR)架构以其简洁的端到端设计理念备受关注,它摒弃了传统检测器中繁琐的锚框(Anchor)设计和非极大值抑制(Non-Maximum Suppression, NMS)后处理步骤。然而,DETR同样面临收敛速度慢、参数量大以及对小目标不敏感等问题,这使其在无人机图像检测领域难以发挥优势。
那么,能否在保持DETR架构简洁性的同时,实现与YOLO系列模型相媲美的参数量和精度呢?这正是由Ningsheng Liao、Yuning Zhang、Zhongliang Yu、Jiangshuai Huang、Mi Zhu和Bo Peng共同发表在《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》上的研究论文《UAV-DETR: Few-parameter DETR for Small Object Detection in High-Altitude UAV Images》所致力于解决的核心问题。
为了回答上述问题,研究人员设计并构建了UAV-DETR模型,其核心架构包含三个关键组件:VisBackbone、可变形编码器(Deformable Encoder)和Wasserstein检测头。该研究在VisDrone2021和UAVDT两大无人机图像基准数据集上进行了全面的实验验证,通过消融实验和对比分析,证明了所提方法的有效性。
- 1.VisUAVBlock模块设计:提出了一种结合倒残差结构(Inverted Residual)和级联线性注意力(Cascaded Linear Attention)的轻量化视觉Transformer模块,旨在减少参数冗余的同时保留低维图像特征。
- 2.可变形交叉编码器(Deformable Cross Encoder, DCE):针对传统编码器中注意力分散的问题,设计了一种跨通道动态采样机制,通过引入偏移网络和交叉通道划分,有效扩大了模型的感受野并降低了计算复杂度。
- 3.Wasserstein距离损失函数:利用Wasserstein距离对边界框不敏感的特性,重新设计了损失函数,以解决小目标检测中边界框重叠度低导致的梯度消失问题,从而显著提升了模型的收敛速度。
- 4.实验验证:在VisDrone2021和UAVDT数据集上,将UAV-DETR与YOLOv8m、RT-DETR、EfficientVit等主流检测器进行对比,并进行了详细的消融实验,以验证各模块的有效性。
UAV-DETR在VisDrone2021公开测试集上展现出了卓越的性能。如表I所示,与参数量为25.8M的YOLOv8m相比,UAV-DETR仅以14.1M的参数量,在mAP@0.5指标上实现了40.1%的精度,相对提升了16.6%。同时,模型的计算复杂度(GFLOPs)降低了10%。在UAVDT数据集上,UAV-DETR同样表现出色,相较于基线模型,在AP、AP75、APS、APM和APL等各项指标上均取得了超过2%的提升。这些结果充分证明了UAV-DETR在参数量、计算复杂度和检测精度之间取得了优异的平衡。
为了评估VisUAVBlock的有效性,研究人员在RT-DETR架构上进行了消融实验。如表IV所示,逐步引入倒残差结构(IR)和级联线性注意力(CAL)后,模型在mAP@0.5指标上从基线的0.363提升至0.38,同时参数量从20M减少至15M,计算复杂度从60 GFLOPs降低至46.8 GFLOPs。这表明VisUAVBlock模块在提升性能的同时,显著降低了模型的复杂度和参数量。
针对编码器模块,研究人员对比了AIFI、全局自注意力(DCE-L)和窗口自注意力(DCE-W)三种设计。如表V所示,所提出的DCE-W模块在mAP@0.5指标上达到了0.401,优于AIFI的0.389和DCE-L的0.394,同时计算复杂度最低。这表明跨通道动态采样机制能够有效提升编码器的性能,同时保持较低的计算开销。
为了验证Wasserstein损失(WL)的有效性,研究人员将其与GIoU、Inner-IoU和Inner-MPDIoU等损失函数进行了对比。如表VII所示,WL在小目标检测(APS)和大目标检测(APL)上均取得了最佳性能,分别达到0.146和0.528。此外,如图13所示,WL的收敛速度明显快于其他损失函数,大约在140个周期即可达到最优性能,而其他方法则需要170个周期以上,收敛速度提升了约17.6%。
通过可视化检测结果,研究人员进一步验证了UAV-DETR的优越性。如图15所示,在存在遮挡和复杂背景的场景中,基线模型(RT-DETR)出现了漏检和误检,而UAV-DETR能够准确检测出被树木遮挡的车辆和远处的小目标行人。此外,在夜间等极端条件下,UAV-DETR也展现出了良好的鲁棒性。混淆矩阵分析(图16)显示,模型的主要误检情况是将汽车误判为货车,这为未来的改进方向提供了参考。
本研究提出了一种名为UAV-DETR的新型目标检测器,专门用于解决高空无人机图像中的小目标检测难题。该模型通过精心设计的VisUAVBlock模块,将倒残差结构与级联线性注意力相结合,在保证精度的同时显著降低了参数量和计算复杂度。此外,通过引入可变形交叉编码器(DCE)和Wasserstein距离损失函数,模型不仅扩大了对小目标的感受野,还加速了收敛过程。
在VisDrone2021和UAVDT两大基准数据集上的实验结果表明,UAV-DETR在参数量、计算复杂度和检测精度之间取得了优异的平衡。与当前最先进的YOLOv8m等检测器相比,UAV-DETR在显著减少参数量和计算量的同时,实现了更高的检测精度,特别是在小目标检测方面表现突出。
尽管UAV-DETR的推理速度(61.2 FPS)已经满足实时性要求,但与YOLOv8(84.2 FPS)相比仍存在一定差距。此外,模型在复杂场景下仍存在一定的误检现象,尤其是在类别间相似度较高的目标上。未来的研究工作将致力于进一步提升模型的推理速度,并增强其对细粒度特征的判别能力,以应对更复杂的检测环境。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号