编辑推荐:
针对现有图卷积网络(GCN)在骨架动作识别中难以捕捉多尺度时空动态的问题,研究人员开展了“分层交织图学习框架(HI-GCN)”研究。该研究通过交织上下文图卷积(IC-GC)模块整合多时序邻帧空间信息,并结合移位窗口时序变换器(SW-TT)实现层次化时序建模,在NTU RGB+D 60(跨主体93.3%)、NTU RGB+D 120(跨主体90.3%)和NW-UCLA(97.0%)数据集上实现最先进性能,为复杂动作的精细识别提供了新范式。
在计算机视觉领域,基于骨架的人体动作识别(Human Action Recognition, HAR)因其对光照、背景和服装变化具有强鲁棒性,逐渐成为智能监控、健康监测和交互系统的重要技术方向。与传统RGB方法相比,骨架数据仅保留人体关节的运动轨迹,更能本质地描述行为特征。然而,如何有效建模关节间复杂的空间关系以及动作在时间维度上的动态演化,仍是当前研究的核心难题。
早期方法主要依赖图卷积网络(Graph Convolutional Networks, GCNs)将人体关节建模为图结构节点,通过物理连接关系聚合特征。ST-GCN(Spatial-Temporal Graph Convolutional Network)作为开创性工作,首次将时空图卷积引入该领域,但其依赖预定义的固定拓扑,难以捕捉非局部关节关联和动作特异性模式。随后,研究者提出多种自适应拓扑方法,如通过注意力机制动态学习关节连接,或构建时序敏感的动态图结构。尽管这些方法在特定任务上取得进展,但它们往往仅侧重于单一时间尺度——要么在整个序列上学习全局共享拓扑,要么逐帧构建局部结构,未能有效整合多尺度时空语境,导致对复杂动作(如“跳跃”中的起跳与落地阶段)的细微差异识别不足。
针对这一问题,来自中山大学、广州大学和国防科技大学的研究团队在《Scientific Reports》上发表了一项新研究,提出了一种名为“分层交织图学习框架”(HI-GCN)的新方法。该框架通过两个核心模块——交织上下文图卷积(Intertwined Context Graph Convolution, IC-GC)和移位窗口时序变换器(Shifted Window Temporal Transformer, SW-TT),实现了多尺度时空动态的层次化建模,在多个标准数据集上取得了领先的识别精度。
研究方法概述
本研究基于公开数据集NTU RGB+D 60、NTU RGB+D 120和Northwestern-UCLA展开实验,采用PyTorch框架与SGD优化器进行模型训练。关键技术创新包括:1)IC-GC模块通过融合当前帧与多阶邻帧信息构建时序感知的空间拓扑,使用余弦注意力机制增强关节关系建模;2)SW-TT模块通过移位窗口策略划分时序片段,利用深度卷积位置编码和跨窗口注意力捕获长程依赖;3)整体模型采用三阶段层次结构,逐步降采样时序分辨率并增加通道数,以平衡局部细节与全局语境。
交织上下文图卷积增强空间建模
IC-GC模块的核心思想是通过引入多时序尺度的空间上下文,突破传统单帧拓扑学习的局限。该模块首先对输入骨架特征进行图卷积操作:
X_{t}^{l+1} = σ(A X_{t}^{l} W^{l})
其中A表示邻接矩阵,Wl为可学习权重。为进一步实现拓扑自适应,IC-GC集成自注意力机制动态计算每帧的注意力图:
A_t = softmax((X_t W_Q)(X_t W_K)^T / √(D'))
为融入序列级语境,研究者设计了一种交织单元(Intertwined Unit),首先对查询矩阵Q进行时序池化得到全局语境Qs,再通过低秩门控机制生成调制矩阵Qc,最终计算交织拓扑:
I_t = cos(Q_t ⊙ Q_c, K_t) / √(d')
该设计使模型能够根据动作阶段动态调整关节间权重,例如在“跳跃”动作中,蹲姿阶段强化膝部与上肢的交互,而起跳阶段则突出双膝协同。
移位窗口时序变换器捕获长程依赖
SW-TT模块专注于解决时序建模中的尺度适应问题。该模块将时序轴划分为固定大小的非重叠窗口,并采用移位窗口机制(偶数层窗口起始位置向后移动半窗长)增强跨窗口信息流。为避免位置信息丢失,SW-TT使用3×1深度卷积(DPConv)进行位置编码:
X_p^l = DPConv(Rearrange(X^l))
X^{l+1} = softmax(cos(X^l W_Q, X^l W_K)/√(d')) (X^l W_V) W_P
通过分层时序池化(最大池化,核尺寸2,步长2),模型逐步扩大感受野,实现从帧级动作到序列级行为的无缝建模。
实验结果验证有效性
在NTU RGB+D 60数据集上,HI-GCN在跨主体(Cross-Subject)评估中取得93.3%的准确率,较先前最佳方法提升0.2%;在NTU RGB+D 120跨主体任务中达到90.3%,优于InfoGCN 1.5%;在NW-UCLA多视角数据集上获得97.0%的领先性能。消融实验表明,移除交织单元(IU)导致性能下降1.1%(NTU 120 X-Sub),而去除移位窗口操作(SWin)则造成0.6%损失,验证了各组件的必要性。
计算效率方面,HI-GCN仅需1.73G FLOPs和1.67M参数,即在保持模型轻量化的同时实现性能提升。可视化分析进一步显示,HI-GCN能自动强化动作相关关节连接(如“推”动作中的肘部-踝部跨体关联),并抑制无关交互,证明其具备良好的语义感知能力。
结论与展望
该研究提出的HI-GCN框架通过层次化交织建模机制,有效解决了骨架动作识别中时空多尺度动态的捕获难题。IC-GC模块实现了相位感知的空间拓扑学习,SW-TT模块则通过移位窗口注意力强化了长程时序依赖建模。二者协同工作,使模型能够同时捕捉瞬时姿势变化和长期动作演进,在复杂动作识别中表现出显著优势。
尽管当前方法在标准数据集上表现优异,作者指出其仍存在若干局限性:如对噪声骨架数据的鲁棒性不足,缺乏对多人交互场景的支持,以及未引入语义级监督信息。未来工作将探索基于语义引导的自适应拓扑学习,并扩展框架至跨域动作识别与群体行为分析场景,进一步提升模型的实用性与泛化能力。