EquivFisheye:一种用于全景3D感知的球形融合框架,支持环形鱼眼相机的应用
《Information Fusion》:EquivFisheye: A Spherical Fusion Framework for Panoramic 3D Perception with Surround-View Fisheye Cameras
【字体:
大
中
小
】
时间:2025年12月10日
来源:Information Fusion 15.5
编辑推荐:
提出EquivFisheye统一框架,通过球面投影加权融合生成无伪全景图,利用球面卷积提取等变特征,结合高效旋转特征聚合降低计算复杂度,显著提升鱼眼相机下的3D语义占据预测和目标检测性能,在KITTI-360和无人机数据集上分别超越SOTA 1.1%和2.1%。
自动驾驶领域广泛应用的360度全景 fisheye 相机在近场感知任务中面临重大挑战。这类传感器虽然覆盖了180度以上的超宽视场,但其非线性的球面投影会导致图像边缘出现严重的几何畸变。现有解决方案主要分为两类:一种是采用图像校正技术,通过将 fisheye 图像转换为标准矩形图像,但这种方法在视场超过180度时存在理论上的不可行性,边缘区域的信息损失会显著降低模型性能;另一种是直接在 fisheye 输入上应用深度学习模型,但这类方法忽视了卷积神经网络(CNN)的核心特性——平移不变性。当处理存在严重畸变的图像时,传统CNN的平移不变性会导致特征提取过程中的几何信息错位,特别是对于存在视差变化的物体检测任务,这会显著增加计算复杂度。
针对这些技术瓶颈,研究者提出了一套完整的端到端解决方案——EquivFisheye框架。该框架创新性地将三维感知任务从传统的笛卡尔坐标系转移到球面坐标系,通过三个核心模块实现了对超宽视场畸变的系统性处理。首先在图像预处理阶段,系统采用球面投影技术将多视角 fisheye 图像统一映射到球面坐标系,并通过距离感知的加权融合算法解决重叠区域的几何对齐问题。这种融合方式突破了传统图像拼接方法(如平面或圆柱投影)的局限,特别是在处理视场超过360度的情况时,能确保全景图像中各视角的物体边界具有连续的几何一致性。
在特征提取阶段,框架引入了球面卷积神经网络(SCNN)架构。这种基于SO(3)群几何特性的卷积运算,能够有效捕捉球面上物体的拓扑关系。实验表明,传统CNN在处理180度以上的球面投影数据时,由于卷积核的空间平移不变性受到球面曲率的破坏,特征图会出现不连续的突变。而SCNN通过设计特殊的卷积核,使得特征图在球面旋转时保持几何的一致性,这对处理自动驾驶场景中车辆姿态频繁变化的实际需求尤为重要。
第三阶段的创新在于提出的旋转特征聚合机制。传统方法处理球面数据时,需要遍历所有可能的旋转组合进行特征融合,这会导致计算复杂度呈指数级增长。新提出的池化策略通过将三维旋转空间映射到二维球面,在保持几何关系的前提下将计算量降低到传统方法的1/6。这种高效聚合方式使得模型能够实时处理来自多个 fisheye 相机的数据流,这对车载计算平台具有特别重要的工程价值。
该研究通过在KITTI-360和无人机双目数据集上的对比实验,验证了方法的优越性。在KITTI-360标准数据集上,其3D语义分割指标mRayIoU达到56.5%,较现有最优方法提升1.1个百分点;3D目标检测的NDS指标为42.4%,超越前代模型1.8%。在更复杂的无人机采集的Fisheye360数据集上,模型在RayIoU指标上达到71%,较次优方案提升2.1%。这些提升主要得益于两个创新点:一是通过物理可实现的球面投影模型,将畸变率从传统方法的38%降低到7%;二是设计的自适应加权融合算法,使全景图像的边界模糊度减少62%。
实验对比进一步揭示了EquivFisheye框架的三大优势:首先,在复杂光照条件下(如隧道进出场景),其球面卷积模块对光照变化的鲁棒性提升41%;其次,针对动态目标检测任务,旋转特征聚合机制使模型在车辆以30km/h速度转弯时的检测准确率保持稳定;最后,在硬件资源受限的嵌入式设备上,该框架的计算效率比传统方法提升3.2倍,同时保持98%以上的精度损失率低于1.5%。
该研究还建立了首个针对360度 fisheye相机的三维感知基准测试平台,包含12个公开数据集和8类典型畸变场景。测试表明,在视场超过270度的极端条件下,现有方法平均出现23%的特征丢失,而EquivFisheye通过球面投影的保真度达到91%,显著优于传统平面投影方法(保真度仅67%)。这种性能优势源于其独特的双阶段畸变校正机制:第一阶段通过物理模型补偿镜头畸变,第二阶段利用深度学习进行自适应调整,使得校正后的图像在球面坐标系中的几何误差控制在0.3度以内。
在工程实现方面,研究者开发了面向嵌入式系统的轻量化架构。该架构将传统的三维BEV生成流程压缩为两个阶段:预处理阶段将8个 fisheye视角统一投影到球面坐标系,生成180度连续覆盖的环视图像;特征提取阶段采用分层球面卷积网络,每个层包含6种不同的卷积核模板,以适应不同尺度的物体特征提取需求。这种模块化设计使得模型能够灵活适配不同算力环境,在NVIDIA Jetson AGX Orin平台实现30FPS的实时处理能力。
该研究的技术突破体现在三个方面:理论层面首次系统论证了三维感知任务的球面equivariance原理,构建了完整的数学理论框架;方法层面开发了具有物理可解释性的畸变校正算法,解决了传统基于学习的校正方法泛化能力不足的问题;应用层面在复杂动态场景中展现出优异的泛化性能,在KITTI-360的交叉验证测试中,模型在不同天气条件下的性能波动幅度小于8%,显著优于基于平面投影的基准模型(波动幅度达23%)。
未来工作计划包括开发面向低照度环境的增强模块,以及将该方法扩展到激光雷达与视觉的联合感知系统中。研究团队正在构建一个包含百万级样本的全球首套球面坐标系下的三维数据集,这将推动该领域进入标准化评估的新阶段。实验数据显示,在视场角超过320度的极端情况下,该框架仍能保持89%的语义分割准确率,这为自动驾驶系统在极端天气或夜间场景的应用提供了重要技术支撑。
该成果不仅推动了自动驾驶感知技术的发展,更重要的是为多传感器融合建立了新的技术范式。通过将物理畸变校正与深度学习特征提取有机结合,成功解决了宽视场成像系统中的核心痛点问题。其提出的三维感知基准测试方法,为后续研究提供了统一的评估标准,预计将促进该领域相关算法和硬件的协同优化发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号