
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于截断高斯去噪查询的大感受野三维目标检测方法LRTG3D研究
【字体: 大 中 小 】 时间:2025年09月10日 来源:Pattern Recognition Letters 3.3
编辑推荐:
本文提出LRTG3D框架,通过z轴保留下采样(Z-PD)和双焦点感受野模块(DFRF)增强稀疏卷积神经网络(CNN)的特征提取能力,结合截断高斯去噪查询(T-GDQ)优化解码器,在nuScenes数据集上实现67.3 mAP和71.9 NDS的领先性能,为自动驾驶中的三维目标检测(3D Object Detection)提供高效解决方案。
亮点
我们提出LRTG3D框架,通过三项协同创新解决三维目标检测中的核心挑战:
z轴保留下采样(Z-PD):在扩大感受野的同时保留关键高度信息,避免传统下采样导致的空间细节丢失。
双焦点感受野模块(DFRF):整合双尺度空间卷积(DSSC)和混合焦点稀疏卷积(HFSC),实现大范围上下文捕捉与局部细节保留的平衡。其中DSSC通过并行的大核分支(长程依赖)和标准卷积分支(局部精度)协同工作;HFSC则结合动态权重预测与结构化邻域采样,显著提升前景特征提取能力。
截断高斯去噪查询(T-GDQ):在解码器中引入概率分布截断机制,加速模型收敛并增强对高浓度特征的适应性。
方法学
在稀疏卷积主干网络中,Z-PD层首先扩展感受野,随后DFRF模块通过多尺度特征融合和动态前景聚焦,输出富含语义信息的体素特征。检测头采用基于T-GDQ的查询机制,通过截断噪声分布优化候选框生成。
数据集与评估
在nuScenes和Waymo两大自动驾驶数据集上验证性能:
nuScenes:67.3 mAP(平均精度)和71.9 NDS(标准化检测分数),超越现有主流方法。
Waymo:在3D检测关键指标(如L2难度下的车辆检测)达到SOTA,验证了跨数据集的泛化能力。
结论
LRTG3D通过系统性的模块创新,解决了三维目标检测中感受野扩展与特征精度的矛盾,为自动驾驶感知系统提供了更鲁棒的解决方案。未来工作将探索多模态融合与实时性优化。
(注:翻译保留原文技术术语的英文缩写与格式规范,如mAP、NDS等,并采用生命科学领域常见的“模块化”表述增强专业性,同时通过“协同创新”“概率分布截断”等措辞增加生动性。)
生物通微信公众号
知名企业招聘