STELA:解剖图 Transformer 助力 3D 人体姿态估计,解锁时空增强学习新突破

【字体: 时间:2025年05月12日 来源:Computer Vision and Image Understanding 4.3

编辑推荐:

  在 3D 人体姿态估计领域,现有方法存在忽视时空解剖知识、未关注关节间运动模式等问题。研究人员提出 Spatial-Temporal Enhanced Learning with an Anatomical graph transformer(STELA)。实验表明 STELA 性能卓越,减少参数且降低 MPJPE,为该领域发展提供新方向。

  在当今科技飞速发展的时代,3D 人体姿态估计技术宛如一颗璀璨的明星,在众多领域闪耀着独特的光芒。无论是虚拟现实(VR)中为用户打造身临其境的沉浸式体验,还是动作识别领域助力精准捕捉人类行为,又或是在运动预测方面发挥关键作用,它都不可或缺。然而,这一领域并非一片坦途,深度模糊问题就像一道难以跨越的鸿沟横亘在前行的道路上。由于缺乏深度信息,单一的 2D 姿态可能映射出多种 3D 姿态,这使得精准预测 3D 人体关节坐标困难重重。
与此同时,基于 Transformer 的方法虽已成为 3D 人体姿态估计的主流,但仍存在诸多不足。一些方法在将图信息融入 Transformer 架构时,忽略了人体姿态序列中固有的时空解剖知识,仅仅考虑直接相连的关节,对非连接关节间的隐含关系视而不见。而且,现有研究大多聚焦于单个关节的轨迹,却忽视了关节间轨迹的时间关系,而这些关系对于理解长期序列至关重要。

为了攻克这些难题,来自国外(文中未明确具体研究机构名称,仅提及作者与 Chung-Ang University 有关)的研究人员展开了深入研究,提出了 Spatial-Temporal Enhanced Learning with an Anatomical graph transformer(STELA)。这项研究成果意义非凡,在 Human3.6M 和 MPI-INF-3DHP 数据集上的实验表明,STELA 取得了领先的性能,平均参数比现有方法少 41%,在 Human3.6M 上平均降低 MPJPE(Mean Per Joint Position Error,平均每个关节位置误差)2.7mm,在 MPI-INF-3DHP 上降低 1.5mm,为 3D 人体姿态估计领域带来了新的突破和发展方向,相关研究成果发表在《Computer Vision and Image Understanding》上。

研究人员在开展此项研究时,主要运用了以下关键技术方法:首先,将输入的 2D 姿态序列投影到嵌入空间,添加可学习的空间位置嵌入;接着,通过由 Global Self-attention(GS,全局自注意力机制)和 Anatomical Graph-attention(AG,解剖图注意力机制)组成的 AGS 模块,学习关节间的各种关系;最后利用 Human3.6M 和 MPI-INF-3DHP 等数据集,采用 MPJPE 和 Procrustes-MPJPE 等评估指标对模型进行评估。

研究结果


  1. STELA 架构设计:STELA 以 2D 姿态序列为输入,输出 3D 姿态序列。它先将 2D 序列P2DRT×N×3(其中T表示帧数,N表示关节数)投影到C维嵌入空间,得到F(0)RT×N×C 。随后,添加可学习的空间位置嵌入后,将其输入由L个 AGS 块组成的模块,每个 AGS 块包含 GS 和 AG。
  2. Global Self-attention(GS):GS 利用自注意力机制,通过空间 GS 和时间 GS 分别学习单个帧内关节关系以及跨帧的关节轨迹,反映各关节的重要性,以此捕捉关节间的全局时空关系。
  3. Anatomical Graph-attention(AG):AG 将解剖图表示融入时空注意力机制。在空间注意力方面,利用代表人体拓扑结构的骨骼图学习空间关系,包括解剖学相关但不直接相连的关节间关系;在时间注意力方面,借助关节运动间的对称和同步关系,通过运动模式图学习轨迹间关系,从而体现人体拓扑结构内固有的关节间依赖和时间运动模式。
  4. 实验评估:在 Human3.6M 数据集上,使用 5 个受试者(1、5、6、7 和 8)进行训练,2 个受试者(9 和 11)进行评估,STELA 相比现有方法,平均降低 MPJPE 2.7mm。在 MPI-INF-3DHP 数据集上同样表现优异,平均降低 MPJPE 1.5mm。同时,STELA 在较少参数的情况下实现了卓越性能,平均仅消耗现有方法 59% 的参数。

研究结论与讨论


STELA 通过 GS 和 AG 两个分支,有效聚合了关节间的全局和解剖关系。GS 捕捉了整个姿态序列帧中所有关节间的时空全局关系,AG 则借助注意力机制中的解剖知识图,从空间和时间维度深入挖掘关节间的关系。实验结果充分证明,STELA 在多种配置下均取得了令人满意的性能,超越了基于 Transformer 和图 Transformer 的方法。

这一研究成果为 3D 人体姿态估计领域开辟了新的道路。它不仅解决了现有方法存在的关键问题,提高了姿态估计的准确性,还通过减少参数提升了模型效率。未来,基于 STELA 的研究有望在更多相关领域得到拓展和应用,进一步推动 3D 人体姿态估计技术的发展,为虚拟现实、动作识别、运动预测等领域带来更强大的技术支持,助力相关产业实现新的跨越。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号