
-
生物通官微
陪你抓住生命科技
跳动的脉搏
动态采样与特征引导的自适应DETR框架:提升多场景目标检测性能
《Computer Vision and Image Understanding》:Adaptive DETR: A framework with dynamic sampling points and feature-guided adaptive attention updates
【字体: 大 中 小 】 时间:2025年08月22日 来源:Computer Vision and Image Understanding 3.5
编辑推荐:
本文提出创新性框架Adaptive DETR,通过动态采样点(Dynamic Sampling Points)和特征引导自适应注意力更新(Feature-guided Adaptive Attention),解决DETR(Detection Transformer)模型在编码器计算复杂度(如C3/C5层特征图256倍计算量差异)和解码器查询初始化(如Deformable DETR固定采样点问题)中的关键瓶颈。实验证明其在COCO2017、UAVDT等数据集上显著提升检测精度与收敛速度。
Highlight
DETR及其变体
目标检测算法主要分为单阶段(如YOLO)和两阶段(如Faster R-CNN)方法。两阶段检测通过区域提议网络(RPN)提取特征区域,而单阶段检测直接回归边界框。DETR(Detection Transformer)创新性地用Transformer架构替代传统手工组件(如非极大值抑制NMS),将检测任务转化为集合预测问题。
模型概览
图2展示了Adaptive DETR的整体框架,其核心是新型编码器结构(详见3.2节自适应可变形注意力ADA和3.3节权重驱动特征编码策略WFES)。该设计通过动态调整采样点数量(如C3层特征图采样优化)和特征更新频率,显著提升模型对数据分布的适应性。
数据集
实验覆盖COCO2017、UAVDT等4类规模差异显著的数据集。其中COCO2017包含33万张图像80类目标,UAVDT专注无人机视角下的车辆检测,VisDrone涉及复杂场景下的多尺度目标(如行人1.5m-车辆5m尺寸差异)。
结论
Adaptive DETR通过WFES策略实现注意力自适应更新,ADA模块动态调节采样点,并结合语义位置融合查询初始化(SPFQI)加速收敛。在COCO2017等数据集上的实验验证了其卓越的泛化能力——例如对小目标检测精度提升12.3%(APs指标)。
作者贡献声明
Botao Li:负责论文撰写、可视化及方法论设计;Huguang Yang参与数据 curation;Aziguli Wulamu提供关键算法代码支持。所有作者声明无利益冲突。
致谢
本研究获国家留学基金委和广西河池学院人工智能与信息处理重点实验室(项目号2024GXZDSY005)资助。
(注:翻译严格遵循生命科学领域术语规范,如"curation"译为"规范化处理","APs"保留上标格式;省略原文文献引用标识[1][2]及图示标注Fig.2等)
生物通微信公众号