结合绝对位姿与半广义相对位姿的视觉定位

《INTERNATIONAL JOURNAL OF COMPUTER VISION》：Combining Absolute and Semi-Generalized Relative Poses for Visual Localization

【字体：大中小】 时间：2026年06月10日 来源：INTERNATIONAL JOURNAL OF COMPUTER VISION 9.3

编辑推荐：

　　摘要：视觉定位（Visual Localization）是指在已知场景中求取给定查询图像对应相机位姿（Camera Pose）的问题。当前主流的基于结构（Structure-based）的定位方法利用查询图像像素与场景三维点之间的2D-3D匹配进行位姿解算，其

摘要：视觉定位（Visual Localization）是指在已知场景中求取给定查询图像对应相机位姿（Camera Pose）的问题。当前主流的基于结构（Structure-based）的定位方法利用查询图像像素与场景三维点之间的2D-3D匹配进行位姿解算，其前提是拥有精确的三维场景模型，而在仅有少量图像可用于构建场景表示时往往无法满足。与之相对的无结构（Structure-less）方法仅使用2D-2D匹配且不需三维模型，但其精度低于基于结构的方法。虽有前期工作提出结合二者，其实用价值尚未得到验证。研究人员分析了结合基于结构与无结构策略的方式，探讨如何从分别由2D-2D和2D-3D匹配获得的位姿中进行优选，证明在多种实际场景中联合两种策略可提升定位性能，尤其能优雅地应对三维场景模型质量退化的情况。

论文解读：《结合绝对位姿与半广义相对位姿的视觉定位》（Combining Absolute and Semi-Generalized Relative Poses for Visual Localization）——发表于 International Journal of Computer Vision

一、研究背景与问题提出

视觉定位（Visual Localization）旨在估计已知场景中查询图像对应的六自由度相机位姿，是增强现实（Augmented Reality, AR）、机器人导航等领域的核心模块。当前最先进的方法多为基于结构（Structure-based）的策略，通过建立查询图像二维特征点与场景三维点云（通常来自运动恢复结构Structure-from-Motion, SfM）间的2D-3D对应，利用P3P（Perspective-Three-Point）求解器在RANSAC框架内估算位姿，在三维模型精确时精度较高。然而该方法依赖高质量三维重建，当数据库图像稀少导致SfM点云稀疏或不准确时性能显著下降。

另一类无结构（Structure-less）方法通过查询图像与多张已知位姿的数据库图像间的2D-2D匹配，利用半广义相对位姿估计（Semi-Generalized Relative Pose Estimation，如E5+1求解器）恢复带尺度的相机位姿，不依赖三维几何模型，但对匹配质量和数据库图像位姿精度敏感，整体精度通常低于Structure-based方法。

已有少数工作如Hybrid RANSAC（Camposeco et al., 2018）尝试融合两类匹配，但未在实际场景下系统评估位姿选择策略的有效性，也未深入分析评分函数的影响。本文针对此缺口，研究如何自适应地在Structure-based（P3P+2D-3D匹配）与Structure-less（E5+1+2D-2D匹配）位姿估计间进行选择，以提升实际场景下的鲁棒性与精度。

二、主要关键技术方法

研究人员采用标准分层视觉定位流程：使用NetVLAD或MegaLoc进行图像检索，SuperPoint/SuperGlue或LoMa（Local Feature Matching Revisited）进行局部特征匹配，2D-2D匹配通过SfM点云、Multi-View Stereo（MVS）网格、Neural Radiance Fields（NeRF）或单目深度估计器Metric3D生成的深度图提升为2D-3D匹配。位姿解算分别运行P3P RANSAC（仅2D-3D）与E5+1 RANSAC（仅2D-2D），并在Hybrid RANSAC框架内同步评估两类型匹配。关键创新为设计多种位姿评分函数——包括内点数求和∑I、内点率求和∑IR、内点数乘积∏I、MSAC（M-estimator SAmple Consensus）得分求和∑M（分别对2D-3D重投影误差与2D-2D Sampson误差计算并归一化阈值平方）及乘积∏M，以及后验Select策略（比较两种方法所得位姿在2D-2D匹配上的内点数）。局部优化（Local Optimization, LO）分混合优化（Hybrid，同时优化两类误差）与分离优化（Split，依求解器类别仅优化对应误差）。实验在Aachen Day-Night v1.1、Cambridge Landmarks、7 Scenes、Extended CMU Seasons、Gangnam Station数据集上进行，场景表示通过按文件名间隔采样与最远相机采样（Farthest Camera Sampling）控制稀疏度，并使用Nerfacto（NeRFStudio）及Metric3D深度图作为替代三维表示，另对比MapAnything前馈模型作为几何来源或位姿回归器。

三、研究结果

3.1 Ablation Study（评分函数与局部优化策略消融）

通过Cambridge Landmarks、Aachen Night及7 Scenes在不同数据库图像间隔N下的实验表明：①Structure-based方法（P3P）在密集采样（小N）时优于Structure-less（E5+1），但在稀疏采样（大N，如N=50）时E5+1显著优于P3P甚至优于纯Structure-based基线。②评分函数选择对精度影响显著——简单内点数求和∑I（Camposeco et al.方案）表现差于基于MSAC的评分；MSAC得分求和∑M与乘积∏M均接近Oracle（从真实位姿误差中优选P3P与E5+1结果），且优于单独使用M_3D或M_2D。③自适应（Adaptive）方法采用∑M或∏M评分时，在密集与稀疏场景下均能匹敌或超越各自单一方法，接近Oracle表现。④混合局部优化（Hybrid LO）总体优于分离优化（Split LO），尤在稀疏参考集时。

3.2 NeRF Scene Representation（NeRF场景表示实验）

使用Nerfacto训练NeRF并渲染深度图生成2D-3D匹配。随训练视图减少NeRF产生漂浮伪影（floaters）致深度不准，此时P3P性能下降，E5+1相对稳定；Adaptive方法仍通过MSAC评分选取较优位姿，在多数场景维持最佳或次佳结果，验证了其对不准确三维几何的容错性。

3.3 Localization with Feed-Forward Model（前馈模型用于定位）

将MapAnything输出的深度图/点云用作2D-3D匹配来源（MA-D/MA-PC/MA-PW），或直接用其位姿回归（RPR）。结果表明前馈模型推断的几何精度尚不足以替代SfM点云，P3P基于其几何表现差于基于SfM；Adaptive可部分补救但未超越纯E5+1。RPR在极稀疏参考下可做粗定位但与基于特征对应方法仍有差距，说明当前前馈重建尚无法取代传统几何定位流程。

3.4 State-of-the-Art Features（前沿特征匹配评估）

换用MegaLoc全局特征+LoMa局部匹配器重新三角angulate SfM模型，各方法召回率普遍提升；E5+1受益于更好检索在较大N时仍保持竞争力，Adaptive（∑M）继续与或优于单一策略，证实混合策略在前沿特征下仍具实用价值。

3.5 Camera Sampling Strategy（相机采样策略）

对比顺序间隔采样与最远相机采样——后者追求均匀覆盖，在较宽松阈值（0.5m,5°）和(5m,10°)上更优（减少完全定位失败）；顺序采样在严阈值(0.25m,2°)上略好（高密度区精度高）。两者互补，说明采样策略影响需结合精度需求考量。

3.6 Practical Use in Visual Localization（实际应用场景）

•
Sparse scene representations（稀疏场景表示）：Extended CMU Seasons上N=11稀疏模型使SfM存储大幅减小，Adaptive明显优于单独P3P/E5+1，适合存储受限场景。
•
Challenging indoor scenes（困难室内场景）：Gangnam Station数据集（弱纹理、动态物体、重复图案），Adaptive一致提升召回。
•
Continuous scene representation updates（连续场景更新）：将成功定位的查询图像及其特征、2D-3D对应追加至数据库（无需重三角angulate与BA），随查询增多Adaptive在稀疏初值下较静态模型提升更明显，适合增量式轻量建图定位。

四、讨论与结论翻译

研究人员得出结论：自适应选择在基于结构（Structure-based）与无结构（Structure-less）相机位姿估计策略间切换在实践中是有价值的。位姿评分函数（如MSAC得分求和）与局部优化策略的选择显著影响最终精度。采用合适评分的自适应方法兼具高精度（得益于准确三维几何时的Structure-based）与对三维模型退化的鲁棒性（得益于Structure-less），在数据库图像稀少、三维重建质量差、困难室内环境及连续轻量更新等场景中尤为有效。该Adaptive方法已集成于PoseLib（estimate_hybrid_pose）。标准几何方法与自适应策略在当前仍显著优于前馈重建模型的定位精度。

结论原文译文：

本文研究了自适应选择在基于结构与无结构相机位姿估计策略间的实用性。核心发现是——位姿评分函数与局部优化策略的选择对位姿精度及自适应方法的实际效用有重大影响。研究人员证明采用恰当的相机位姿评分函数（如MSAC得分组合）与混合局部优化策略的自适应方法，可兼得两者优势：在三维场景几何精确时通过基于结构方法获高准确度，在三维场景几何不准时通过无结构方法保鲁棒性。实验表明自适应方法适配新旧检索与局部特征匹配器，尤适于数据库图像极少（利于降低存储）之场景。简要对比前馈模型亦显示当前标准几何方法精度仍显著占优。

热点排行