RelPose-TTA：基于能量的相对姿态校正方法，用于测试时对类别级对象姿态估计的适应性调整

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Image and Vision Computing》：RelPose-TTA: Energy-based relative pose correction for test-time adaptation of category-level object pose estimation

【字体：大中小】 时间：2026年02月08日 来源：Image and Vision Computing 4.2

编辑推荐：

　　类别级物体姿态估计测试时自适应框架，通过相对运动自监督缓解领域偏移与误差累积。摘要：针对类别级物体姿态估计中合成数据与真实环境差距导致的泛化能力不足问题，提出基于相对运动的自监督测试时自适应框架RelPose-TTA。通过能量模型引导的相对姿态校正器，利用连续帧的几何一致性作为稳定监督信号，有效缓解伪标签噪声和误差累积，在公开数据集上验证其优于现有TTA方法，并支持持续流式跟踪。

袁湛|王欣|刘兆祥|连世国|杨汤文

北京交通大学计算机科学与技术学院，中国北京

摘要

类别级别的对象姿态估计对于机器人抓取和操控至关重要，然而在合成数据上训练的模型往往难以泛化到真实世界环境，因为存在显著的领域差异。测试时适应（TTA）为解决这一挑战提供了有希望的方案，但现有方法通常依赖于噪声伪标签或复杂的优化过程，这可能导致性能下降和误差累积。在本文中，我们提出了RelPose-TTA，一种测试时适应框架，它提高了在之前未见过的真实世界环境中进行类别级别对象姿态估计的泛化能力和长期稳定性。核心思想是利用连续帧之间的相对运动，这种运动通常比单帧绝对姿态估计更稳定和可靠，并将其作为推理过程中的自监督信号。具体来说，RelPose-TTA引入了一个基于能量的相对姿态校正器来模拟帧间运动，并减轻遮挡、对象对称性和大视角变化引起的歧义。在测试时适应过程中，该校正器通过对比学习在线更新，并与点云配准紧密结合，以便精细的相对姿态估计能够有效地指导绝对姿态的细化。广泛的实验表明，RelPose-TTA在未见过的真实世界环境中始终优于之前的TTA方法，同时显著减少了长期漂移并保持了稳定的姿态预测。

引言

实时对象姿态估计是机器人感知和操控的基本能力[1]、[2]。现有方法大致可以分为两种范式：实例级别和类别级别姿态估计。实例级别方法[3]、[4]、[5]、[6]利用精确的CAD模型作为强几何先验，通过对应匹配或特征对齐实现高精度姿态估计。然而，它们对特定对象CAD模型的严格依赖限制了对新对象实例的泛化能力。类别级别方法[7]、[8]、[9]放宽了这一要求，能够泛化到已知类别内的未见对象，为真实世界机器人感知提供了更实用的解决方案。因此，本文重点关注类别级别对象姿态估计。

早期关于类别级别姿态估计的研究主要集中在完全监督的方法上[10]、[11]、[12]、[13]、[14]、[15]，在大型标注数据集上训练时表现出色。然而，它们对高质量姿态标注的依赖使得扩展到多样化环境变得非常昂贵。为了降低标注成本，无监督领域适应（UDA）尝试将合成数据上训练的模型转移到真实领域。例如，UDA-COPE[16]引入了带有点级过滤的教师-学生框架，但其性能对伪标签的质量非常敏感。Self-DPDN[17]结合了特征空间先验变形和双重一致性约束，以更好地利用目标领域信息，从而减轻了领域差异。虽然UDA减轻了对真实标注的需求，但通常需要在训练期间同时访问源数据和目标数据，这在机器人部署中是不可行的。相比之下，测试时适应（TTA）在推理过程中在线调整预训练模型，无需访问源数据或目标标注。这种灵活性使其成为动态真实世界场景中鲁棒姿态估计和跟踪的理想解决方案。

尽管TTA在图像分类方面通过熵最小化[18]、[19]、伪标签细化[20]、[21]和自监督辅助任务[22]等技术显示出潜力，但将这些技术扩展到更具挑战性的对象姿态估计任务仍大多未被探索。与分类不同，姿态估计需要在连续且高度非结构化的变换空间中进行推理，这使得它对伪标签噪声和适应不稳定性更加敏感。最近尝试弥合这一差距的方法包括TTA-COPE[23]，它将姿态估计表述为在离散姿态空间上的分类任务，并采用带有伪标签过滤的教师-学生框架来实现对测试样本的适应。类似地，TTAPose[24]结合了熵最小化和伪标签化来处理具有可用CAD模型的未见对象。然而，这两种方法本质上都容易受到噪声伪标签的影响，并需要非平凡的架构修改。它们对后姿态细化模块的依赖进一步打破了端到端优化。一种更近期的面向跟踪的TTA方法[25]结合了时间自监督，但需要初始化真实姿态，并且仍然容易受到遮挡和累积漂移的影响。此外，由于它在真实世界序列上训练和评估，其在更具挑战性的仿真到真实世界领域转换下的鲁棒性尚未得到验证。

为了解决这些限制，我们重新审视了机器人部署中测试时适应的基本特性，在这种情况下，观测结果自然以连续的时间序列形式出现。我们观察到，绝对姿态估计（相对于相机坐标对象姿态）强烈依赖于外观线索，如纹理、照明和传感器噪声，因此对领域转换非常敏感。相比之下，相对姿态估计捕捉了帧间对象的几何运动，本质上受物理一致性而非视觉风格的控制。这使得相对姿态更具领域不变性，并且对仿真到真实的差异更加鲁棒。之前的TTA方法在很大程度上忽略了这一时间线索，而是基于单帧预测进行操作。

受上述见解的启发，我们提出了RelPose-TTA，一种测试时适应框架，它利用帧间相对姿态作为稳定的自监督信号来指导绝对姿态预测。我们方法的核心是一个基于能量模型的相对姿态校正模块（RelPose-Corrector），它将帧间运动建模为流形上的非参数能量分布。该设计能够实现可靠的目标领域特征感知和几何监督，自然处理由对称性或遮挡引起的姿态歧义，并避免了基于伪标签的适应所带来的不稳定性。

RelPose-TTA分为两个阶段：源领域预训练和目标领域测试时适应。在预训练期间，姿态回归器和RelPose-Corrector通过随机姿态扰动构建的合成帧对共同进行优化。在测试时适应期间，RelPose-Corrector（i）通过特征级对比学习将特征表示与目标领域分布对齐，并（ii）提供高质量的相对姿态监督，以持续适应测试样本上的姿态回归器。如图1所示，RelPose-TTA摒弃了之前方法[23]、[24]中采用的复杂教师-学生架构，实现了高效且端到端的适应，并自然扩展到流式姿态跟踪。

我们的主要贡献总结如下：

•
我们提出了RelPose-TTA，一种用于类别级别对象姿态估计的测试时适应框架，它利用帧间相对姿态作为自监督来指导姿态预测并减轻误差累积。
•
我们引入了一个基于能量模型的RelPose-Corrector，它将相对姿态建模为流形上的非参数分布，有效解决了由对象对称性和遮挡引起的不确定性。
•
我们提出了一种基于特征级对比学习和几何一致性的高效在线适应策略。它能够使模型与目标分布对齐，并为姿态回归提供可靠的自监督指导。
•
广泛的实验表明，RelPose-TTA在仿真到真实世界的适应设置中实现了最先进的性能，并自然扩展到流式RGB-D场景中的姿态跟踪。

部分摘录

对象姿态估计方法

对象姿态估计旨在恢复对象在相机坐标系中的3D旋转和平移。现有方法大致可以分为实例级别和类别级别两种范式。实例级别方法[3]、[26]、[27]、[28]、[29]、[30]依赖于特定对象的精确CAD模型，通常通过2D–3D或3D–3D对应关系进行姿态估计，然后通过后处理进行细化。虽然精度很高，但它们对特定对象的依赖限制了其泛化能力

问题表述

类别级别姿态估计的目标是确定已知类别中对象的3D旋转

R \in S (3)

、3D平移

t \in R^{3}

和3D大小

s \in R^{3}

，相对于[7]中定义的类别规范空间。本文关注这项任务的测试时适应（TTA），其中在合成源领域训练的源模型在线适应到真实世界的测试样本，而无需访问源数据或目标标签。

正式来说，让

D^{S}

表示标记的合成源领域

实验结果

在本节中，我们使用两个公开可用的数据集评估了所提出的RelPose-TTA的性能。CAMERA25 [7]用于源领域预训练，而REAL275 [7]作为测试时适应的目标领域。此外，我们对REAL275进行了全面的消融研究，以验证RelPose-TTA中每个组件和TTA策略的有效性。

结论

我们提出了RelPose-TTA，一种基于相对姿态校正的新型类别级别对象姿态估计框架。我们的方法在测试时不需要访问源领域数据或标记的目标样本，为动态和非结构化环境中的准确姿态估计提供了有希望的解决方案。具体来说，我们引入了RelPose-Corrector，它利用连续帧之间的特征相关性来隐式建模相对姿态的概率分布

CRediT作者贡献声明

袁湛：撰写——原始草案、方法论、调查、形式分析、数据整理、概念化。王欣：撰写——审阅与编辑、监督、调查、形式分析。刘兆祥：撰写——审阅与编辑、验证、监督。连世国：撰写——审阅与编辑、验证、监督、调查。杨汤文：撰写——审阅与编辑、监督、资金获取。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号