
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于环视相机重叠区域的3D语义占据预测框架OverlapOcc研究
【字体: 大 中 小 】 时间:2025年06月25日 来源:Expert Systems with Applications 7.5
编辑推荐:
为解决自动驾驶中2D到3D特征转换的欠定问题,研究人员提出OverlapOcc框架,首次利用环视相机重叠区域的视差信息构建几何约束,通过OICA层和SSA层实现多级特征转换与全局几何信息扩散,在nuScenes数据集上实现视觉基LiDAR语义分割与3D SOP任务的SOTA性能,为低成本高精度环境感知提供新思路。
自动驾驶系统的环境感知能力依赖于对三维空间几何与语义信息的精准重建。当前基于鸟瞰图(BEV)的视觉感知方案虽在目标检测等任务中表现良好,却因缺乏垂直维度信息难以识别非常规障碍物,而激光雷达(LiDAR)方案虽精度高但成本昂贵。这促使研究者转向基于环视相机的3D语义占据预测(Semantic Occupancy Prediction, SOP)技术,但其核心挑战在于2D到3D特征转换的欠定问题——单目图像缺乏深度信息导致几何重建不精确。现有方法如MonoScene和TPVFormer仅依赖单目图像的隐式3D先验,难以捕捉准确几何特征。
针对这一瓶颈,中国的研究团队创新性地利用环视相机特有的重叠区域(约占视野12%),提出OverlapOcc框架。该区域因多视角拍摄产生的视差蕴含明确几何约束,可作为3D重建的"锚点"。研究通过设计基于可变形Transformer的Overlap-Image-Cross-Attention(OICA)层,在特征转换阶段引入Overlap-Attention(OA)模块,使重叠区3D体素能同时获取双摄像头特征并判别共视点;再通过Spatial-Self-Attention(SSA)层将精确几何信息扩散至全局场景。这种"局部精准定位+全局信息传播"的策略,首次实现显式利用重叠区域几何先验的3D SOP任务突破。
关键技术包括:1)采用图像骨干网络提取环视相机多级特征;2)OICA层通过可变形注意力机制完成2D-3D特征转换,其OA模块利用重叠区双视角特征相似性筛选共视点;3)SSA层基于局部与上下文特征学习,将重叠区几何约束传递至非重叠区域;4)在nuScenes数据集(含1000个多模态自动驾驶场景)进行验证。
研究结果显示:在3D SOP任务中,OverlapOcc的mIoU达到48.3%,较SurroundOcc提升2.1%;在LiDAR语义分割任务中,其性能与部分LiDAR基方法相当。消融实验证实,OICA的OA模块使重叠区几何误差降低19%,而SSA层能有效将精度增益传递至全局场景。
该研究的里程碑意义在于:1)开创性地将环视相机重叠区域作为显式几何约束源,为视觉基3D重建提供新范式;2)OICA与SSA层的协同设计突破传统单目先验的局限性,其模块化结构可扩展至深度估计等其他环视相机任务;3)在保持低成本优势的同时,使视觉方案的几何重建精度逼近LiDAR系统,为自动驾驶感知技术路线提供重要参考。论文成果发表于《Expert Systems with Applications》,其提出的几何约束利用策略对多视角视觉感知领域具有普适性启示。
生物通微信公众号
知名企业招聘