基于特征图引导与全局语义增强的PR-DETR目标检测模型研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月28日 来源：Image and Vision Computing 4.2

编辑推荐：

　　本文提出PR-DETR（Prior Knowledge DETR）模型，通过设计全局空间语义聚合模块（AGSSI）增强特征表达，并创新性地将查询（queries）嵌入编码阶段以获取先验知识。实验表明，该模型在MS COCO数据集上mAP显著提升（最高+3.5），有效解决了DETR系列模型对大规模目标敏感性低、复杂场景检测性能差等问题。

Highlight

本研究揭示了查询（queries）在训练过程中无法根据数据动态调整的问题，导致模型难以灵活关注不同图像特征。为此，我们提出了一种基于特征图引导的高效精准目标检测模型PR-DETR。

Introduction

目标检测是计算机视觉领域的核心任务，旨在定位并分类图像中的不同对象。传统方法依赖卷积操作提取图像特征，包括单阶段（one-stage）和双阶段（two-stage）检测器。而Facebook团队提出的DETR（Detection Transformer）打破了这一传统范式，它采用编码器-解码器（encoder-decoder）结构，通过自注意力（self-attention）机制提取特征，并利用对象查询（object queries）交互实现端到端检测，无需人工设计锚框（anchor）或非极大值抑制（NMS）。

然而，DETR存在收敛慢、对大目标敏感性低、编码器鲁棒性差等问题。基于查询的检测器虽通过可学习嵌入（learnable embeddings）表示潜在对象，但缺乏对不同图像的适应性，且忽视全局空间语义信息（global spatial semantic information），导致模型难以理解场景整体语义结构。此外，当多目标出现在同一位置时，单个查询难以同时预测，且单尺度特征图（single-scale feature map）对不同尺度目标预测效果较差。

本文提出PR-DETR模型，通过特征图引导的查询优化策略解决上述问题。首先，AGSSI模块（Aggregating Global Spatial Semantic Information）提取并增强全局空间语义信息，包含图像整体结构和背景信息，为模型提供宏观视角。该模块通过全局信息传播（global information propagation）增强特征图表达能力，提升编码器鲁棒性和检测精度。其次，本文将查询作为特征图的一部分参与编码过程，使其在解码前同时获取局部和全局空间语义信息，充分掌握场景语义结构和对象间上下文关系。实验证明，具备先验知识的查询在解码阶段表现更优。

Conclusion

本文提出了一种基于特征图引导的查询优化目标检测模型PR-DETR，融合局部与全局空间语义信息。AGSSI模块捕获图像整体结构和背景信息，增强特征图表示和编码器鲁棒性。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号