基于反馈导向图卷积网络的骨骼动作识别新方法:FD-GCN在多模态特征融合与过平滑问题中的突破

《Graphical Models》:FD-GCN: Feedback Directed Graph Convolutional Network for skeleton-based action recognition

【字体: 时间:2025年11月05日 来源:Graphical Models 2.2

编辑推荐:

  本文针对基于骨骼的动作识别中图卷积网络(GCN)存在的节点过平滑和多模态数据流(如关节与骨骼特征)融合效率低两大挑战,提出了一种新颖的反馈导向图卷积方法(FD-GC)及相应网络FD-GCN。该方法通过动态构建多样化的相关性矩阵,利用不同层次的特征作为反馈环,有效聚合关节和骨骼特征,并以较小的参数成本显著提升了多流特征建模能力。实验结果表明,FD-GC能缓解深层网络的过平滑效应,在NTU RGB+D 60、NTU RGB+D 120和Northwestern-UCLA三大公开数据集上性能优异,为骨骼运动识别提供了新思路。

  
在人工智能和计算机视觉领域,基于骨骼数据的动作识别正扮演着越来越重要的角色,从智能监控到人机交互,其应用前景广阔。传统的识别方法,如循环神经网络(RNN)和卷积神经网络(CNN),往往将人体关节序列视为独立特征或伪图像进行处理,未能充分挖掘关节间内在的拓扑关联,这限制了模型对人体复杂运动模式的理解能力。随着图卷积网络(GCN)的引入,研究者们开始利用图结构来建模人体的空间拓扑和时间动态,ST-GCN等工作取得了显著进展。然而,GCN在实际应用中仍面临两大棘手难题:一是当网络层数加深时,节点特征在聚合过程中容易出现“过平滑”(over-smooth)现象,导致不同动作的细微特征难以区分;二是对于多模态数据(如分别表征关节位置和骨骼向量的数据流),现有方法多采用独立处理再简单融合的策略,缺乏高效的信息交互机制,无法充分利用不同模态间的潜在关联。
为了攻克这些瓶颈,来自上海海事大学信息工程学院的冉瑞西和杨文璐在《Graphical Models》上发表了题为“FD-GCN: Feedback Directed Graph Convolutional Network for skeleton-based action recognition”的研究论文。他们提出了一种创新的反馈导向图卷积(Feedback Directed Graph Convolution, FD-GC)方法,并构建了相应的FD-GCN网络。该方法的核心思想是引入反馈机制,让高层次的语义信息能够指导低层次的特征聚合,从而动态调整图拓扑结构,促进关节(Joint)和骨骼(Bone)两种模态特征的有效融合,同时在深层网络中抑制过平滑效应。
研究人员为开展此项研究,主要运用了几项关键技术:首先,基于图网络(GN)块构建基础框架,将人体骨架表示为包含关节(节点)和骨骼(有向边)的图结构;其次,提出了反馈导向图卷积(FD-GC)模块,其核心包括动态相关性矩阵生成机制,该机制通过多层卷积从输入的关节和骨骼特征中学习并更新图拓扑;第三,设计了内部与外部反馈机制,内部反馈在单个FD-GC块内实现关节与骨骼特征的交替聚合与更新,外部反馈则通过递归路径将不同层次的特征输出作为后续层的输入,以学习长程依赖;第四,采用全局更新模块,利用局部移位图卷积(Shift-GCN启发)对通道特征进行重新分配和聚合;最后,在NTU RGB+D 60、NTU RGB+D 120和Northwestern-UCLA等大型公开骨骼动作识别数据集上进行了广泛的实验验证,并进行了详尽的消融研究以分析各模块贡献。

3. Method

本研究方法部分系统阐述了FD-GCN的构建。首先明确了图结构的基本定义,将人体骨架表示为图G=(V, E, X),其中V代表关节节点集合,E代表骨骼边集合,X为节点特征。研究借鉴了图网络(GN)块的思想,该框架包含边、节点和全局属性的更新与聚合函数。在此基础上,提出了核心创新点——反馈导向图卷积(FD-GC)。FD-GC包含三个关键步骤:首先,利用相关性矩阵生成函数M(·),结合输入的关节特征Xv和骨骼特征Xe以及初始有向拓扑A,动态推断出新的相关性矩阵?。该矩阵通过三个卷积层对输入特征进行变换,并与原始拓扑加权结合,从而捕获不同动作下关节对之间的关联强度。其次,实施反馈特征更新。第一步,利用更新后的拓扑?和关节特征Xv来聚合并更新骨骼特征X'e。第二步,将更新后的骨骼特征X'e作为反馈信息,通过另一个相关性矩阵生成函数M'(·)产生新的拓扑?',进而用于更新关节特征X'v。这种交替更新机制使得两种模态的信息能够相互引导。此外,还引入了外部反馈机制,通过递归迭代的方式,将前面层的输出状态Ht作为当前层的额外输入,从而构建更深层次的反馈回路,并使用自适应反馈强度λi来平衡不同迭代层的影响。最后,进行全局更新。使用局部移位卷积函数F(·)对更新后的联合特征X' = X'e + X'v进行通道间的特征重排和聚合,并引入残差连接以稳定训练。基于FD-GC模块,研究人员构建了FD-GCN网络整体架构,该网络包含多个FD-GC块和基础图卷积块,用于空间建模,同时使用时态卷积网络(TCN)进行时间维度的特征提取。

4. Experiments

实验部分在三个大型公开数据集上验证了FD-GCN的有效性。在NTU RGB+D 60数据集上,FD-GCN在Cross-Subject (X-sub)和Cross-View (X-view)基准测试中分别达到了90.6%和96.3%的准确率,优于许多基线模型和当前最先进的方法。在参数数量方面,FD-GCN(2-ensemble)约为12.58M,在性能和效率之间取得了良好平衡。在NTU RGB+D 120和Northwestern-UCLA数据集上,FD-GCN同样表现出色,证明了其良好的泛化能力。
消融研究深入分析了各模块的贡献。以DGNN为基线,逐步添加反馈模块、相关性矩阵生成(CMG)模块和全局更新模块后,模型在NTU RGB+D 60 X-Sub上的准确率从89.2%提升至90.3%,且参数仅小幅增加(从4.00M增至4.19M),证实了各组件尤其是反馈机制的有效性。研究还比较了不同的反馈建模方式。直接对特征进行元素加和(Element-wise Plus)会降低性能,而使用完整的动态拓扑(CMG)若不加以约束(如降维和门控机制)也会因过平滑导致性能下降。引入采样和门控后的CMG++方法则显著提升了准确率。对于外部反馈机制,增加递归迭代层数(C)在初期会因噪声导致性能下降,但随着层数增加和网络总层数的适当调整(如从10层减至8层),并结合自适应的反馈强度,性能可进一步提升至90.3%。可视化分析进一步佐证了反馈机制的作用。通过对“踢腿”动作样本的相关性矩阵可视化发现,浅层网络中反馈信息贡献的拓扑包含较多噪声,而深层网络(如第10层)中,反馈机制能够强化与动作相关的关节连接(如右下肢关节),抑制不相关的连接(如与踢腿无关的躯干部分关节),使得网络能够聚焦于关键区域。此外,基于有向拓扑计算的空间运动向量与动作的实际方向相符,表明FD-GC能够更好地表征细粒度动作。全局更新模块的对比实验表明,使用移位卷积(Shift-conv)比点卷积(Point-conv)能以更少的参数获得更好的性能。在多流融合方法对比中,FD-GC(参数4.19M,准确率90.3%)在性能上接近独立双流网络融合(参数7.02M,准确率90.4%),但参数效率更高。网络结构实验表明,在基线网络中逐步用FD-GC块替换原有块(最终采用7个FD-GC块+3个基础块),性能稳步提升,且FD-GC块在深层能通过抑制冗余连接缓解过平滑。

5. Conclusion

综上所述,本研究针对骨骼动作识别中图卷积网络存在的过平滑和多模态数据流融合难题,提出了一种创新的反馈导向图卷积网络FD-GCN。该方法通过动态构建相关性矩阵和引入内部与外部的反馈机制,实现了关节和骨骼特征在不同层次上的有效交互与聚合。理论分析和大量实验一致表明,FD-GC能够显著提升模型对细粒度动作的表征能力,并以较小的参数代价缓解深层网络的过平滑问题。在多个大型公开数据集上的优异表现,验证了FD-GCN作为骨骼运动识别算法的有效性和先进性。这项工作不仅为多流图卷积网络的设计提供了新思路,其反馈机制的思想也有望启发其他涉及复杂关系建模的图神经网络研究。未来,研究者可进一步探索如何优化反馈机制,以提升网络在处理粗粒度动作信息时的鲁棒性。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号