《Computer Vision and Image Understanding》:FDE: A Frequency-Domain Enhancement method for object detection in complex traffic scenes
编辑推荐:
复杂交通场景中物体检测的低频偏差问题通过频率域增强框架FDE解决,该框架包含动态注意力机制、自适应卷积模块和频率感知监督策略,显著提升小物体及遮挡目标的检测精度,同时保持实时性。
孙文彦|谢菲菲|张玉轩|魏良瑞|褚福正|唐晓宇
山东科技大学测绘与地理信息学院,中国山东省青岛市前湾港路579号,266590
摘要
在复杂的交通场景中,目标检测器经常面临小物体、边界混乱和严重遮挡的问题,这主要是由于模型的低频偏置导致的——模型能够捕捉到平滑的背景,但却忽略了高频细节。为了解决这个问题,我们提出了一个频域增强(FDE)框架,该框架整合了三个模块:(i)频率自适应注意力(FAA),用于动态强调有信息量的频率成分;(ii)增强型频率动态卷积(EFDConv),用于自适应地建模多样的光谱模式;(iii)频率感知监督(FAS),用于引导训练以保留边缘和细微结构。将FDE嵌入到RT-DETR中后,在KITTI数据集上实现了+1.7 mAP的提升,在COCO数据集上实现了+1.9 mAP的提升,且计算开销微乎其微。这些结果表明,FDE有效缓解了低频偏置,提高了对小物体和相邻物体的检测能力,使其适用于复杂的交通环境。
引言
现代的目标检测方法已经从两阶段R-CNN风格框架发展到基于CNN的一阶段检测器,最近又发展为基于Transformer的模型。两阶段方法(例如R-CNN系列)通常具有较高的检测精度,但依赖于区域提案和多阶段处理,这使得它们难以满足安全关键应用的实时需求。一阶段检测器(例如YOLO和SSD系列)通过直接回归边界框和类别来提高效率,但在处理小物体、严重遮挡的目标和高密度场景时性能会下降。基于Transformer的检测器(例如DETR及其变体)去除了手工制作的锚点和后处理步骤,可以实现更好的速度-精度平衡,但它们通常需要大规模的训练数据和较长的训练时间,并且仍然难以在复杂的交通场景中捕捉到精细的边界。这些权衡表明,与其完全替换现有的检测器,不如设计可以插入到它们中的机制来增强在具有挑战性场景中的感知能力。
在复杂的道路环境中,车辆和行人等物体往往密集排列并相互遮挡,边界细节容易与背景或邻近物体融合在一起,这大大增加了检测的难度。交通分析应用(如拥堵估计和事件检测)强调了在复杂道路环境中需要强大的感知系统(Jindal等人,2021年;Tripathi等人,2023年)。传统的基于CNN和Transformer的检测器主要在空间域提取特征,并倾向于关注低频信息(例如交通图像中缓慢变化的车辆轮廓或大面积的平滑区域),而忽视了高频细节(例如车窗与车身的间隙、车灯边缘、车牌字符、行人轮廓)。这种光谱偏置(Xu等人,2020年)会导致相邻物体“粘连”在一起,使得它们的边界难以区分:例如,两辆颜色和纹理相似的汽车可能共享低频特征,从而掩盖了它们之间的间隙,导致一个物体被另一个物体覆盖或完全遗漏。因此,使实时检测器能够更加强烈地关注高频细节,同时抵消低频偏置是一个重要的未解决问题。与仅在空间域操作或以有限、特定于任务的方式利用频率信息的现有检测框架不同,我们的工作直接针对复杂交通场景中的这种光谱偏置,通过明确设计一个频域增强框架来增强高频细节,同时保持实际交通监控和自动驾驶系统所需的效率。
本文的主要贡献是一个统一的频域增强(FDE)框架,用于复杂交通场景中的目标检测。FDE整合了三个组件——频率自适应注意力(FAA)、增强型频率动态卷积(EFDConv)和频率感知监督(FAS),共同减轻了现代检测器中的低频偏置。FAA在通道和空间层面平衡了低频和高频响应;EFDConv通过频率分割的动态核自适应地建模多样的光谱模式;FAS在训练过程中施加了补充的频率和梯度域约束。由于其高效的设计,FDE可以嵌入到实时检测器中,用于交通监控和自动驾驶等应用,其中对小物体和被遮挡物体的检测精度以及推理延迟都至关重要。
部分摘录
目标检测方法
目标检测框架大致可以分为两阶段、一阶段和基于Transformer的方法。两阶段检测器(如R-CNN系列)将区域提案和分类分离,仍然是强大的精度基准。一阶段检测器(包括YOLO和SSD系列)通过单次预测完成密集预测,并被广泛采用
基础检测器(RT-DETR)
RT-DETR是一种高效的端到端检测器,它继承了DETR的优点,同时实现了实时性能(Zhao等人,2024年)。该架构包括三个部分:主干网络、混合编码器和基于查询的并行解码器。
主干网络提取多尺度特征
。混合编码器结合了自注意力和卷积融合。基于注意力的尺度内特征交互(AIFI)模块在每个尺度内应用高效的自注意力来建模实验
我们在KITTI自动驾驶数据集和COCO 2017通用检测数据集上评估了改进后的RT-DETR模型。首先描述了数据集、实现细节和评估指标,然后与主流方法进行比较,并提供了可视化结果,随后通过消融研究来评估每个组件的贡献。
结论与未来工作
在本文中,我们提出了FDE,这是一个用于复杂交通场景中目标检测的频域增强框架。通过将频率自适应注意力(FAA)、增强型频率动态卷积(EFDConv)和频率感知监督(FAS)集成到实时检测器中,FDE有效缓解了低频偏置,并增强了对小物体、混乱物体和被遮挡物体的高频细节的表示。在KITTI和COCO上的广泛实验表明
CRediT作者贡献声明
孙文彦:撰写 – 审稿与编辑,撰写 – 原稿,可视化,软件,方法论,调查,形式分析,数据管理,概念化。谢菲菲:撰写 – 审稿与编辑,撰写 – 原稿,验证,监督,资源获取,概念化。张玉轩:撰写 – 审稿与编辑,验证,监督。魏良瑞:调查,数据管理。褚福正:验证,监督。唐晓宇:调查,数据
利益冲突声明
作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。
致谢
本研究得到了山东省自然科学基金(ZR2021MD026)和山东省高等教育科学技术计划(J18KA214)的支持。