基于部件-关节注意力与动态图卷积的增强型时空骨架建模
《Scientific Reports》:Enhanced spatiotemporal skeleton modeling: integrating part-joint attention with dynamic graph convolution
【字体:
大
中
小
】
时间:2025年10月07日
来源:Scientific Reports 3.9
编辑推荐:
为解决现有方法在捕捉人体骨架运动细粒度语义和动态时空依赖性方面的不足,研究人员提出了一种集成部件-关节注意力(PJA)机制与动态图卷积网络(Dynamic GCN)的时空骨架建模框架。该框架通过多粒度序列编码提取关节级细节与部件级语义,利用PJA自适应地突出关键区域,并通过Dynamic GCN动态构建关节间空间关系。在Human3.6M数据集上的实验表明,该方法在多种预测时间跨度下均优于现有基线,平均关节位置误差(MPJPE)在80ms和400ms时分别达到10.2mm和57.5mm,相对改进达9-12%。该研究为智能监控、人机交互等领域的实时人体运动理解提供了更精确、可解释的解决方案。
在计算机视觉和人机交互领域,让机器像人一样“预判”未来动作是一项核心挑战。无论是智能监控中预测可疑行为,还是人机协作中机器人提前规避,都离不开对三维人体骨架运动的精准预测。然而,人体运动并非简单的关节位移,而是由全身各部位协同完成的复杂动态过程。例如,一个“挥手”动作,不仅涉及手臂关节的摆动,还伴随着肩部、躯干的微妙配合。如何让模型同时捕捉到这些细粒度的关节级细节和宏观的部件级语义,并理解它们之间随时间演化的复杂关系,是当前研究面临的主要瓶颈。
传统方法往往依赖手工设计的特征或简单的时空模型,难以捕捉这种复杂的层次化结构。虽然深度学习模型,特别是图卷积网络(GCN),能够有效建模骨架的非欧几里得空间拓扑结构,但大多数方法仍存在明显局限。首先,它们通常采用固定的邻接矩阵来定义关节间的连接关系,无法适应动作过程中动态变化的肢体姿态。其次,许多模型要么只关注单个关节的细节,要么只关注身体部件的整体语义,缺乏将这两种互补视角统一起来的有效机制。此外,对时空注意力机制的利用不足,也限制了模型自适应地聚焦于关键身体部位和关键时间点的能力。
为了攻克这些难题,来自重庆三峡职业学院、西南民族大学和ITMO大学的研究团队在《Scientific Reports》上发表了一项新研究,提出了一种创新的时空骨架建模框架。该框架巧妙地将部件-关节注意力(Part-Joint Attention, PJA)机制与动态图卷积网络(Dynamic GCN)相结合,旨在更精准地捕捉人体运动的时空演化规律。
本研究构建了一个端到端的深度学习框架,其核心流程包括多粒度序列编码、注意力增强表示学习、动态图建模以及特征聚合与分类输出。研究主要基于Human3.6M、AMASS和3DPW等公开数据集进行训练与评估,采用平均关节位置误差(MPJPE)作为核心评价指标。关键技术模块包括:1. 多粒度序列编码模块,通过一维卷积(1D CNN)和池化操作分别提取关节级运动细节和部件级语义信息;2. 部件-关节注意力(PJA)模块,通过查询-键-值(Query-Key-Value)三元组计算注意力权重,自适应地融合关节与部件特征;3. 动态图卷积网络(Dynamic GCN),根据时序特征相似性动态构建和更新关节间的空间关系,并结合一维卷积和自注意力机制进行时空建模。
该模块旨在为后续处理提供结构化的、丰富的特征表示。它通过两个并行路径处理输入骨架序列:关节级编码和部件级编码。关节级编码利用一维卷积(1D CNN)沿时间维度对每个关节的序列进行特征提取,以捕捉局部的微运动和过渡动态。部件级编码则根据人体解剖学定义一组身体部件(如手臂、腿部、躯干),对每个部件内的关节特征进行池化操作(平均池化或最大池化),以聚合部件级的语义信息。这种设计使得模型能够同时保留细粒度的关节级动态和高级别的部件级语义,为后续的注意力机制和动态图建模提供了鲁棒的输入。
为了动态地强调信息丰富的关节和连贯的身体部件,同时保持时间一致性,研究人员引入了部件-关节注意力(PJA)模块。该模块通过计算查询(Query)、键(Key)和值(Value)三元组,分别对关节级特征和部件级特征计算软注意力分数。具体而言,它利用缩放点积注意力(Scaled Dot-Product Attention)机制,根据每个时间步的上下文重要性,为关节和部件分配不同的权重。最终,通过加权聚合关节级和部件级的特征,形成一个增强的表示。这一设计使得模型能够自适应地聚焦于关键骨架结构,抑制冗余或噪声信号,从而提高了对细微和上下文相关运动的捕捉能力。
该模块负责对骨架数据的空间结构和时间动态进行联合建模。在空间建模方面,它将每个时间帧的骨架关键点建模为一个无向图,并采用谱图卷积(Spectral Graph Convolution)操作来捕捉关节间的层次化空间相关性。与传统的静态图卷积不同,该模块中的图结构是动态构建的,即边连接关系会根据时序特征的相似性进行动态更新,从而能够适应复杂动作中不断演化的关节配置。在时间建模方面,该模块采用了两种互补的策略:一维时间卷积(1D Temporal Convolution)用于捕捉局部时间模式和连续动作动态;自注意力机制(Self-Attention)用于捕获长程时间依赖关系,从而能够建模周期性、突变或延迟的运动模式。
经过多层图卷积和时空建模后,模型产生高维的时空特征。为了进行分类或预测,这些特征首先通过全局平均池化(Global Average Pooling, GAP)被压缩为固定长度的向量,以保留时空分布的统计特性并减少参数数量。随后,池化后的特征向量被送入一个全连接分类层,通过Softmax函数输出动作类别的概率分布。模型训练采用交叉熵损失(Cross-Entropy Loss)作为监督学习目标,并使用Adam优化器进行优化,以确保模型能够学习到判别性特征,实现精确的分类。
在Human3.6M数据集上的广泛实验表明,所提出的方法在短时预测任务中显著优于多种基线方法。在平均关节位置误差(MPJPE)指标上,该方法在80ms和400ms的预测时间跨度下分别达到了10.2mm和57.5mm,相较于最强的基线方法(LTD-10-10)分别提升了1.0mm和1.4mm,相对改进幅度达到9-12%。消融研究进一步验证了各个模块的有效性。结果显示,单独添加部件-关节注意力(PJA)模块即可显著降低MPJPE,证明了其捕捉关键关节和部件语义的能力。在此基础上进一步添加动态图卷积网络(Dynamic GCN)模块,带来了额外的性能提升,证实了动态图结构在捕捉时空依赖关系方面的优势。此外,关于输入粒度的实验表明,同时使用关节级和部件级输入(Joint+Part Combined)比单独使用任何一种输入效果更好,而引入速度和加速度等运动特征(Pos+Vel+Acc)也能带来进一步的性能改善。
本研究成功提出并验证了一个集成了部件-关节注意力(PJA)机制与动态图卷积网络(Dynamic GCN)的时空骨架建模框架。该框架通过多粒度序列编码、自适应注意力聚焦和动态空间关系建模,有效地解决了现有方法在捕捉细粒度语义和动态时空依赖性方面的不足。实验结果表明,该方法在人体运动预测任务中取得了显著的性能提升,能够更准确地预测未来的人体姿态,尤其是在处理复杂、细微的动作时表现出色。这项工作不仅为骨架运动分析领域提供了一种更精确、可解释的解决方案,也为智能监控、人机交互、行为分析等实际应用场景奠定了坚实的技术基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号