基于Transformer和GCN-Former混合方法的3D人体姿态估计

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Visual Communication and Image Representation》：3D human pose estimation based on a Hybrid approach of Transformer and GCN-Former

【字体：大中小】 时间：2026年01月02日 来源：Journal of Visual Communication and Image Representation 3.1

编辑推荐：

　　两阶段模型通过教师-学生预训练生成增强表示，Hybrid Dual-Stream Spatio-Temporal Network（HDSTN）结合Transformer和GCNFormer分别捕捉长程依赖与局部时空关系，在Human3.6M、MPI-INF-3DHP数据集上达到SOTA性能。

潘晓健|李光|张宁飞|李建军

内蒙古科技大学数字与智能学院，中国内蒙古包头014000

摘要

近年来，基于自监督的预训练范式在基于骨架的3D人体姿态估计领域得到了广泛研究。特别是基于掩码预测的方法将预训练的性能提升到了新的高度。所提出的两阶段模型旨在捕捉更丰富、更重要的信息。具体来说，预训练模块旨在提取增强表示，而混合双流时空网络（HDSTN）处理这些表示以恢复详细的3D姿态信息。在预训练阶段，改进的教师模型使用原始输入数据为学生模型生成预测目标。所提出的混合双流时空网络（HDSTN）集成了Transformer-GCNFormer（TGFormer）模块，这些模块采用两个并行处理流。Transformer流捕捉长距离依赖关系，而GCNFormer流专注于学习关节之间的局部时空关系。通过结合这两种方法的优点，TGFormer有效地降低了维度，并提供了更全面的人体3D姿态结构表示。GCNFormer模块利用相邻关节之间的局部关系生成新的表示，补充了Transformer的输出。通过自适应融合这两种表示，TGFormer在学习底层3D结构方面表现出更强的能力。本手稿扩展了我们之前的会议论文[Zhang等人，2024（AIHCIR）]，该论文介绍了一个基于Transformer的两阶段流程用于3D姿态提升。

引言

3D人体姿态估计是计算机视觉领域许多研究工作的基础，仍然是一个热门的研究课题[1]。它在动作识别[2]、人机交互[3]和虚拟现实[4]以及新兴的虚拟/混合现实训练平台[5]等领域具有广泛的应用前景。早期研究[6]利用各种预训练任务（如动作预测和掩码重建）来学习3D人体姿态估计。最近，对比学习方法[7,8]变得越来越流行。然而，这些方法通常需要精心设计的数据增强策略，并主要推动编码器捕捉全局表示，从而忽略了局部时空细节。随着Transformer模型的日益流行[9]，基于掩码预测任务的自监督预训练技术在视觉表示学习领域变得越来越突出[[10]，[11]，[12]]。SkeletoMAE[13]的研究试图将MAE[14]方法引入3D动作表示学习领域，并取得了显著进展。最近的类感知对比目标进一步桥接了全局和细粒度运动线索[15]。然而，类似于MAE的方法，它们强调低级的高频细节（如原始关节坐标或时间动作），未能充分利用模型的能力，在捕捉高级时空结构方面效果较差。人们认为，使用更复杂的预测目标将提高模型学习更优表示的能力，从而提升预训练性能。本文提出了一个基于预训练和混合双流时空网络的两阶段框架。

在预训练阶段，我们首先从不同的运动数据源获取2D骨架序列。然后对这些序列进行随机掩码处理和噪声干扰[16]，模拟实际数据中通常遇到的挑战。受干扰的数据被输入到学生模型中，而教师模型处理原始的、未掩码的数据。这种教师-学生范式使学生模型能够在教师更完整信息的指导下，通过预测输入数据的缺失部分来学习有意义的特征。该模型基于传统的Transformer架构。在这个框架中，自注意力机制确保获得的信息在上下文中是合适的。将信息与整个样本结合，可以提供比从孤立目标获得的更丰富的信息。对齐后的输出被用作混合双流时空网络的输入。所提出的网络从时间运动中推断出底层的人体3D结构，并恢复由于随机掩码和噪声而丢失的信息[17]。通过这种方式，混合双流时空网络隐式地学习了人体运动的共同知识，如关节连接、解剖学约束和时间动态。Transformer最初是为自然语言处理（NLP）任务设计的深度学习模型架构。近年来，它已在各种计算机视觉任务中找到应用，例如人体姿态估计。Transformer模型中的自注意力机制特别擅长捕捉长距离依赖关系，这使得它非常适合处理需要理解远距离语义关系的扩展序列和任务。然而，单独使用标准Transformer进行人体姿态估计可能不是最佳选择，因为全局注意力机制不可避免地会导致大量参数。

为了获取骨骼关系，现有方法通常随时间对它们进行建模，可以分为基于Transformer的架构和基于图卷积的模型。将它们的优点结合起来——Transformer捕捉长距离依赖关系，图模型捕捉局部依赖关系——到一个统一的架构中可能非常有益。统一的架构结合了Transformer和图卷积的优点。

我们提出了HDSTN（混合双流时空网络），这是一种用于3D人体姿态估计的新架构，它集成了Transformer和图卷积网络（GCN）模块。HDSTN利用Transformer捕捉长距离依赖关系的能力，而GCN用于建模局部时空关系。Transformer和GCN模块的特征被自适应融合，使模型能够更全面地捕捉随时间变化的姿态信息，从而提高3D姿态估计的准确性。所提出的模型在两个广泛认可的基准测试集Human3.6M和MPI-INF-3DHP上进行了评估，这两个数据集是3D人体姿态估计领域的标准数据集。实验结果表明，HDSTN取得了最先进（SOTA）的性能，在这些数据集上的Protocol 1误差分别为39.0毫米和19.2毫米，显著优于现有方法。

总结来说，本文的主要贡献是：

1. 我们提出了一种改进的教师-学生模型预训练方法，该方法捕获更有意义的特征作为学习目标，从而产生具有更强语义相关性的表示。

2. 我们设计了一个HDSTN模块，该模块利用Transformer和图卷积同时捕捉数据中的长距离依赖关系和局部时空关系。我们的模型在保持轻量级和参数效率的同时，实现了高精度。

3. 我们的模型在两个具有挑战性的数据集Human3.6M和MPI-INF-3DHP上表现出色。

部分摘录

3D人体姿态估计

近年来，3D人体姿态估计已成为一个热门课题[18]。从输入角度来看，它可以分为两类：多视图输入和单视图输入。多视图输入模型需要来自不同角度的多个摄像头，这在实际场景中实现起来具有挑战性。目前，大多数方法使用单视图视频输入。从方法论的角度来看，可以使用CNN[19]直接从图像中估计3D姿态，或者通过将2D姿态提升为3D姿态[20]。

概述

所提出的方法包括两个部分：预训练和混合双流时空网络。如图1所示，我们在预训练阶段使用了教师-学生模型。教师模型使用未掩码的训练样本构建完整的上下文预测目标。学生模型处理掩码样本，并预测掩码位置的相应表示。使用轻量级对齐解码器将输出与教师模型的输出对齐。

参数设置

所提出的运动编码器HDSTN采用以下规格实现：深度=5，头数=8。对于预训练，T=243，批量大小=16。每个MLP的扩展层为4。在GCNFormer流中，时间邻居的数量设置为k=2，初始学习率设置为0.1。HDSTN模型在PyTorch框架上的GeForce RTX 4090 GPU上实现。在实践中，我们使用以下步骤更新教师权重：

θ_{teacher} \leftarrow β θ_{teacher} + (1 - β) θ_{student}

数据

结论

提出了一个包括预训练和混合双流时空网络的两阶段框架。该框架旨在从复杂数据源捕获人体运动特征并估计3D人体姿态。我们设计了一个HDSTN网络，首先使用教师-学生模型对掩码2D姿态进行预训练，然后利用GCNFormer捕获复杂的局部关系，并有效地将其与Transformer结合以捕获长距离依赖关系。这种融合提高了

未引用参考文献

[37]。

CRediT作者贡献声明

潘晓健：撰写——原始草稿。李光：撰写——审阅与编辑。张宁飞：撰写——原始草稿，方法论。李建军：撰写——审阅与编辑。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：[李建军报告由内蒙古科技大学提供。李建军与内蒙古科技大学存在关系，包括雇佣关系。如果有其他作者，他们声明没有已知的利益冲突或可能影响

致谢

本工作部分得到了国家自然科学基金（授权号：62066036）；内蒙古高等教育青年科学技术人才支持计划项目（授权号：NJYT22074）的支持。内蒙古自然科学基金（授权号：2022MS06009）。内蒙古直属高校的基本研究经费（授权号：2023XKJX020）。

联系信箱：

粤ICP备09063491号

摘要

引言