遥感图像中的目标检测对于从灾害监测到生物多样性保护等各种应用都至关重要。然而,遥感图像的独特特性,包括由自上而下视角导致的任意目标方向、由于视觉线索有限而产生的模糊外观以及强烈的背景干扰,给目标检测带来了重大挑战。
基于CNN的目标检测器(Li等人,2022b;Xu等人,2023)在遥感图像的定向目标检测方面取得了显著进展。这些方法主要集中在改进定向边界框的表示上。这主要是通过设计专门的检测框架(Ding等人,2019;Xie等人,2021;Yang等人,2021a),以及定向框编码(Xu等人,2020)和中点偏移框编码(Xie等人,2021)策略来实现的。此外,一些研究直接在主干网络中加入了角度学习(Pu等人,2023;Wang等人,2024a;Umirzakova等人,2025),并且还提出了一些损失函数设计(Yang等人,2021b;Yang等人,2021c)来进一步提升模型的定向目标检测能力。然而,尽管取得了这些进展,这些方法通常需要在图像中预先定义大量锚点,并在后续步骤中应用非最大值抑制(NMS)来去除冗余检测结果。
Detection Transformer(DETR)(Carion等人,2020)首次提出了基于Transformer的自然图像端到端检测器。与基于CNN的方法不同,DETR将目标检测视为一个集合预测问题,消除了对手工定义锚点和NMS的需求。其可学习的查询能够与输入图像的特征进行全局交互,以聚合特定于目标的信息。这些优势激发了基于Transformer的遥感目标检测方法的发展。具体来说,O2-DETR(Ma等人,2021)首次通过为预测的边界框添加额外的角度维度来适应旋转目标检测。在O2-DETR之后,AO2-DETR(Dai等人,2022)引入了一个用于定向提议生成和细化的模块。然而,它没有将角度信息嵌入到查询学习过程中,导致查询和目标特征之间的不对齐。ARS-DETR(Zeng等人,2024)和RQFormer(Zhao等人,2025)通过在它们的Transformer解码器中引入可变形注意力解决了查询-目标特征不对齐的问题(如图1(b)所示)。这类使用可变形注意力的方法仅从特征图中采样有限数量的关键点进行查询学习。它们可能能够捕捉到目标的方向,但牺牲了具有区分性的类别表示的学习。例如,尽管ARS-DETR能够准确定位图2中的两个篮球场,却将它们错误地分类为足球场。此外,这类方法忽略了难以检测目标的特征学习挑战(Cai等人,2024),因为它们缺乏针对这一特定任务的专门设计。例如,ARS-DETR未能检测到图2中的两辆黑色汽车。
为了解决这些问题,我们提出了RS-DETR,这是一种用于遥感图像中旋转与语义协同感知的定向目标检测的新颖DETR框架。如图1(c)所示,我们的框架引入了两个关键组件:在Transformer解码器中使用了旋转与语义协同注意力(RSCA)机制来同时学习旋转和语义信息,并在Transformer编码器之前应用了自适应上下文聚合特征增强(ACA-FE)模块来通过动态调整上下文信息来增强特征。
由于目标在不同的感受野上表现出不同的特性(Li等人,2023),我们开发了ACA-FE模块,该模块使用多种不同大小的卷积核来满足不同感受野的需求,并捕获丰富的纹理和形状线索。然后这些收集到的线索沿通道维度动态融合,实现自适应的上下文聚合,从而获得更具区分性的特征表示。
此外,为了克服可变形注意力的局限性,我们提出了RSCA模块。该模块部署在每个解码器层中,并采用双分支架构来捕获互补信息。一个分支通过可变形注意力进行稀疏关键点采样以估计方向,而另一个分支利用语义掩码注意力来促进以目标为中心的语义特征表示。最后,我们优化了基于DETR方法的训练过程以进一步提高性能。在训练过程中,现有的基于DETR的方法使用预测目标(由它们的类别、边界框和角度参数化)与真实目标之间的二元匹配。然后根据匹配对进行监督。在本文中,我们在匹配和监督部分都加入了掩码约束。这些掩码描述了目标的区域形状,有助于稳定匹配并对优化施加更强的约束,从而加快训练收敛速度并提高旋转目标检测的准确性。
我们的主要贡献总结如下:
(1) 我们提出了RSCA模块,该模块能够有效地使可学习的查询捕获目标的语义和方向信息,从而实现更准确的目标检测。
(2) 我们设计了ACA-FE模块,通过自适应聚合适当的上下文信息来增强目标表示,从而获得几何上准确且语义上具有区分性的特征。
(3) 我们提出了一种带有掩码约束的监督策略,以减少匹配过程中的不确定性并限制解的空间,共同提高学习收敛速度和最终的检测准确性。
(4) 在三个公共航空数据集DIOR-R、DOTA-v1.0和DOTA-v2.0上的广泛实验证明了所提出的RS-DETR的有效性。该模型在所有数据集的定向目标检测方面均取得了最先进(SOTA)的性能。