基于截断高斯去噪查询的大感受野三维目标检测方法LRTG3D研究

【字体: 时间:2025年09月10日 来源:Pattern Recognition Letters 3.3

编辑推荐:

  本文提出LRTG3D框架,通过z轴保留下采样(Z-PD)和双焦点感受野模块(DFRF)增强稀疏卷积神经网络(CNN)的特征提取能力,结合截断高斯去噪查询(T-GDQ)优化解码器,在nuScenes数据集上实现67.3 mAP和71.9 NDS的领先性能,为自动驾驶中的三维目标检测(3D Object Detection)提供高效解决方案。

  

亮点

我们提出LRTG3D框架,通过三项协同创新解决三维目标检测中的核心挑战:

  1. 1.

    z轴保留下采样(Z-PD):在扩大感受野的同时保留关键高度信息,避免传统下采样导致的空间细节丢失。

  2. 2.

    双焦点感受野模块(DFRF):整合双尺度空间卷积(DSSC)和混合焦点稀疏卷积(HFSC),实现大范围上下文捕捉与局部细节保留的平衡。其中DSSC通过并行的大核分支(长程依赖)和标准卷积分支(局部精度)协同工作;HFSC则结合动态权重预测与结构化邻域采样,显著提升前景特征提取能力。

  3. 3.

    截断高斯去噪查询(T-GDQ):在解码器中引入概率分布截断机制,加速模型收敛并增强对高浓度特征的适应性。

方法学

在稀疏卷积主干网络中,Z-PD层首先扩展感受野,随后DFRF模块通过多尺度特征融合和动态前景聚焦,输出富含语义信息的体素特征。检测头采用基于T-GDQ的查询机制,通过截断噪声分布优化候选框生成。

数据集与评估

在nuScenes和Waymo两大自动驾驶数据集上验证性能:

  • nuScenes:67.3 mAP(平均精度)和71.9 NDS(标准化检测分数),超越现有主流方法。

  • Waymo:在3D检测关键指标(如L2难度下的车辆检测)达到SOTA,验证了跨数据集的泛化能力。

结论

LRTG3D通过系统性的模块创新,解决了三维目标检测中感受野扩展与特征精度的矛盾,为自动驾驶感知系统提供了更鲁棒的解决方案。未来工作将探索多模态融合与实时性优化。

(注:翻译保留原文技术术语的英文缩写与格式规范,如mAP、NDS等,并采用生命科学领域常见的“模块化”表述增强专业性,同时通过“协同创新”“概率分布截断”等措辞增加生动性。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号