基于特征图引导与全局语义增强的PR-DETR目标检测模型研究
【字体:
大
中
小
】
时间:2025年09月28日
来源:Image and Vision Computing 4.2
编辑推荐:
本文提出PR-DETR(Prior Knowledge DETR)模型,通过设计全局空间语义聚合模块(AGSSI)增强特征表达,并创新性地将查询(queries)嵌入编码阶段以获取先验知识。实验表明,该模型在MS COCO数据集上mAP显著提升(最高+3.5),有效解决了DETR系列模型对大规模目标敏感性低、复杂场景检测性能差等问题。
本研究揭示了查询(queries)在训练过程中无法根据数据动态调整的问题,导致模型难以灵活关注不同图像特征。为此,我们提出了一种基于特征图引导的高效精准目标检测模型PR-DETR。
目标检测是计算机视觉领域的核心任务,旨在定位并分类图像中的不同对象。传统方法依赖卷积操作提取图像特征,包括单阶段(one-stage)和双阶段(two-stage)检测器。而Facebook团队提出的DETR(Detection Transformer)打破了这一传统范式,它采用编码器-解码器(encoder-decoder)结构,通过自注意力(self-attention)机制提取特征,并利用对象查询(object queries)交互实现端到端检测,无需人工设计锚框(anchor)或非极大值抑制(NMS)。
然而,DETR存在收敛慢、对大目标敏感性低、编码器鲁棒性差等问题。基于查询的检测器虽通过可学习嵌入(learnable embeddings)表示潜在对象,但缺乏对不同图像的适应性,且忽视全局空间语义信息(global spatial semantic information),导致模型难以理解场景整体语义结构。此外,当多目标出现在同一位置时,单个查询难以同时预测,且单尺度特征图(single-scale feature map)对不同尺度目标预测效果较差。
本文提出PR-DETR模型,通过特征图引导的查询优化策略解决上述问题。首先,AGSSI模块(Aggregating Global Spatial Semantic Information)提取并增强全局空间语义信息,包含图像整体结构和背景信息,为模型提供宏观视角。该模块通过全局信息传播(global information propagation)增强特征图表达能力,提升编码器鲁棒性和检测精度。其次,本文将查询作为特征图的一部分参与编码过程,使其在解码前同时获取局部和全局空间语义信息,充分掌握场景语义结构和对象间上下文关系。实验证明,具备先验知识的查询在解码阶段表现更优。
本文提出了一种基于特征图引导的查询优化目标检测模型PR-DETR,融合局部与全局空间语义信息。AGSSI模块捕获图像整体结构和背景信息,增强特征图表示和编码器鲁棒性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号