基于Mamba算法的拓扑融合技术，用于单目3D人体姿态估计

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Image and Vision Computing》：Mamba-Driven Topology Fusion for monocular 3D human pose estimation

【字体：大中小】 时间：2026年02月07日 来源：Image and Vision Computing 4.2

编辑推荐：

　　3D姿态估计的Mamba拓扑融合框架通过骨骼感知模块和双向图卷积增强人体拓扑建模能力，显著提升精度并降低计算成本

Zenghao Zheng | Lianping Yang | Jinshan Pan | Hegui Zhu

东北大学科学学院，沈阳，110819，中国

摘要

Mamba模型由于其线性时间扩展能力和出色的表达能力，在3D人体姿态估计任务中逐渐受到了广泛关注。然而，Mamba模型在处理人体拓扑结构方面存在不足，因为其内部状态空间模型和一维因果卷积网络在处理全局拓扑序列和局部结构时存在固有的设计限制。为了解决这些问题，我们提出了Mamba-Driven Topology Fusion框架。为了对Mamba进行全局拓扑指导，我们设计了一个Bone Aware模块，以在球坐标系中提供人体骨骼的方向和长度指导。为了捕捉局部关节之间的依赖关系，我们通过集成前向和后向图卷积网络来增强Mamba内的卷积结构。此外，还提出了Bone-Joint Fusion Embedding和Spatiotemporal Refinement模块，分别用于融合全局骨骼和关键点信息并提取时空特征。所提出的Mamba-Driven Topology Fusion框架有效缓解了Mamba模型与人体关键点拓扑结构的不兼容性问题。我们在Human3.6M和MPI-INF-3DHP数据集上进行了广泛的实验进行评估和比较，结果表明，该方法在显著降低计算成本的同时提高了准确性。我们的模型和代码可在https://github.com/ZenghaoZheng/MDTF-3DHPE获取。

引言

近年来，单目3D人体姿态估计（3DHPE）在计算机视觉领域受到了广泛关注。这项任务的主要目标是从单个视角拍摄的2D图像或视频中估计身体关节的3D坐标。该领域的研究在实现各种下游应用中起着关键作用，如动作识别[1]、人机交互[2]、人体重建[3][4]和自动驾驶[5]。

单视图3D人体姿态估计方法主要分为端到端方法和两阶段方法。由于2D检测器[6][7]的高准确性，两阶段方法通常更准确，因此是本文的重点。基于Transformer的方法[8][9][10][11]表现出出色的模型表达能力，但其计算负担随序列长度呈二次方增长。最近，Mamba[12]模型在序列长度方面实现了线性时间扩展，并在多种模态下达到了最先进（SOTA）的性能。PoseMamba[13]、PoseMagic[14]和HGMamba[15]等研究将Mamba应用于3DHPE，与基于Transformer的方法相比，均实现了更高的计算效率和准确性。

然而，Mamba模型不适用于具有严格拓扑结构的人体关键点序列的直接应用。如图2-a所示，Mamba模型主要由状态空间模型（SSM）[16]和因果卷积组成，这些适合处理依赖于当前和过去状态的时间数据。人体关键点形成树状结构（见图3-a），Mamba模型无法捕捉人体关节之间的空间拓扑关系。在之前的工作中，PoseMamba[13]直接将Mamba模型应用于3DHPE，而没有解决这种不兼容性问题。尽管PoseMagic[14]和HGMamba[15]引入了图卷积神经网络（GCN）[17]来弥补Mamba模型在建模局部关节关系方面的不足，但它们仍然无法有效捕捉全局关节之间的拓扑关系。

为了解决上述限制，我们提出了Mamba-Driven Topology Fusion框架，以从全局和局部角度全面指导Mamba模型学习人体拓扑结构。为了进一步增强Mamba模型捕捉人体关键点之间局部相关性的能力，我们引入了GCN-Enhanced Vision Mamba（GEM）。与之前的方法[14][15][18]相比，GEM在Mamba模型内部集成了前向和后向GCN，使得GCN处理的局部特征能够更直接、更有效地被因果卷积和SSM处理。为了使Mamba模型能够捕捉全局拓扑关系，我们提出的Bone Aware模块利用人体骨骼向量的方向和长度作为全局人体拓扑信息的指导。此外，我们引入了Bone-Joint Fusion Embedding来融合来自不同坐标系的骨骼向量和关键点信息，并设计了Spatiotemporal Refinement模块从融合信息中提取时空特征并回归3D坐标。我们的整体框架如图1所示。

我们在Human3.6M[19]和MPI-INF-3DHP[20]数据集上对我们的方法进行了广泛评估，证明了其比大多数先前方法具有更高的准确性和计算效率。值得注意的是，我们的方法仅使用了MixSTE[21]计算成本的1/9，且与PoseMamba[13]相比，误差减少了0.9毫米。

总结来说，我们的贡献如下：

•
创新的Bone Aware模块推断骨骼向量的长度和方向，从而为Mamba模型学习人体结构提供全局拓扑指导。
•
GCN-Enhanced Vision Mamba将双向GCN嵌入Mamba中，为Mamba内的因果卷积和SSM提供了全面和直接的局部特征。
•
提出的Bone-Joint Fusion Embedding有效融合了全局骨骼和关键点信息，而Spatiotemporal Refinement模块全面提取了时空特征，以实现准确的人体姿态估计。
•
Mamba-Driven Topology Fusion框架有效缓解了Mamba对人类身体拓扑结构的不敏感性，并且与其他方法相比，具有更低的计算复杂性和更好的性能。

章节片段

两阶段3D人体姿态估计

两阶段3D人体姿态估计器首先从图像中提取2D姿态信息，然后使用2D到3D的增强器，大多数研究集中在增强器的设计上。已经提出了诸如级联全连接网络[22]、用于改进关节依赖性建模的Transformer[23]和时空网络[21]等方法。一些方法利用膨胀卷积[24]或步进Transformer[9]来利用时间信息，以及来自时间建模方法的进一步进展[25]，

方法

我们提出的Mamba-Driven Topology Fusion框架如图1所示。我们的输入是从2D姿态检测器获得的2D姿态序列帧

s_{2 D}

。我们首先训练bone aware模块来计算极角类别并推断估计的球坐标

b o {es}_{s} \in R^{f j}

，这些坐标基于人体结构。接下来，我们将

s_{2 D}

和

b o es

输入到bone-joint融合嵌入中进行特征融合，然后是时空细化模块。最后，是一个回归头

数据集和评估指标

我们在两个3D HPE基准数据集Human3.6M [19]和MPI-INF-3DHP [20]上评估了我们的方法。

结论

在本文中，我们提出了一种用于单目3D人体姿态估计的Mamba-Driven Topology Fusion框架。我们首先设计了一个bone aware模块来估计骨骼向量的方向和位置，为Mamba模型捕捉关节序列内的依赖关系提供全局拓扑指导。基于Vision Mamba，我们进一步引入了GEM，它结合了内部的前向和后向图卷积网络，以增强Mamba捕捉局部关节的能力

CRediT作者贡献声明

Zenghao Zheng：写作 – 审稿与编辑，撰写原始草稿，可视化，验证，方法论，形式分析，数据管理。Lianping Yang：写作 – 审稿与编辑，概念化，资源管理，软件开发，形式分析。Jinshan Pan：写作 – 审稿与编辑，概念化，形式分析。Hegui Zhu：写作 – 审稿与编辑，概念化，形式分析。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号