基于特征图引导与全局语义增强的PR-DETR目标检测模型研究

【字体: 时间:2025年09月28日 来源:Image and Vision Computing 4.2

编辑推荐:

  本文提出PR-DETR(Prior Knowledge DETR)模型,通过设计全局空间语义聚合模块(AGSSI)增强特征表达,并创新性地将查询(queries)嵌入编码阶段以获取先验知识。实验表明,该模型在MS COCO数据集上mAP显著提升(最高+3.5),有效解决了DETR系列模型对大规模目标敏感性低、复杂场景检测性能差等问题。

  
Highlight
本研究揭示了查询(queries)在训练过程中无法根据数据动态调整的问题,导致模型难以灵活关注不同图像特征。为此,我们提出了一种基于特征图引导的高效精准目标检测模型PR-DETR。
Introduction
目标检测是计算机视觉领域的核心任务,旨在定位并分类图像中的不同对象。传统方法依赖卷积操作提取图像特征,包括单阶段(one-stage)和双阶段(two-stage)检测器。而Facebook团队提出的DETR(Detection Transformer)打破了这一传统范式,它采用编码器-解码器(encoder-decoder)结构,通过自注意力(self-attention)机制提取特征,并利用对象查询(object queries)交互实现端到端检测,无需人工设计锚框(anchor)或非极大值抑制(NMS)。
然而,DETR存在收敛慢、对大目标敏感性低、编码器鲁棒性差等问题。基于查询的检测器虽通过可学习嵌入(learnable embeddings)表示潜在对象,但缺乏对不同图像的适应性,且忽视全局空间语义信息(global spatial semantic information),导致模型难以理解场景整体语义结构。此外,当多目标出现在同一位置时,单个查询难以同时预测,且单尺度特征图(single-scale feature map)对不同尺度目标预测效果较差。
本文提出PR-DETR模型,通过特征图引导的查询优化策略解决上述问题。首先,AGSSI模块(Aggregating Global Spatial Semantic Information)提取并增强全局空间语义信息,包含图像整体结构和背景信息,为模型提供宏观视角。该模块通过全局信息传播(global information propagation)增强特征图表达能力,提升编码器鲁棒性和检测精度。其次,本文将查询作为特征图的一部分参与编码过程,使其在解码前同时获取局部和全局空间语义信息,充分掌握场景语义结构和对象间上下文关系。实验证明,具备先验知识的查询在解码阶段表现更优。
Conclusion
本文提出了一种基于特征图引导的查询优化目标检测模型PR-DETR,融合局部与全局空间语义信息。AGSSI模块捕获图像整体结构和背景信息,增强特征图表示和编码器鲁棒性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号