自适应陷阱:探索基于骨架的动作识别中自适应机制的有效性
《IEEE Transactions on Multimedia》:Adaptive Pitfall: Exploring the Effectiveness of Adaptation in Skeleton-Based Action Recognition
【字体:
大
中
小
】
时间:2025年11月28日
来源:IEEE Transactions on Multimedia 9.7
编辑推荐:
提出两种优化策略IC-GCNs和AL-GCNs,通过自适应陷阱模型提升动态关节表示并降低计算成本,结合跳块、贝叶斯权重选择和简化维度注意力技巧,在多个数据集上实现优异参数-成本比。
摘要:
图卷积网络(GCNs)通过利用身体表示的邻接拓扑结构,在基于骨架的动作识别任务中取得了显著的性能提升。然而,以往方法在构建邻接矩阵时采用的自适应策略在性能与计算成本之间并未达到平衡。我们提出了“自适应陷阱”(Adaptive Trap)的概念,该概念可以通过多个自主子模块来替代,从而同时增强动态关节表示能力并有效减少网络资源消耗。为了实现这一自适应模型的替换,我们提出了两种不同的策略,这两种策略都取得了相当的效果。(1) 优化策略:提出了“个体性与共性图卷积网络”(IC-GCNs),专门用于优化关联邻接矩阵的构建方法,通过优先融合物理信息、对多维通道进行极端压缩以及简化自注意力机制等方法,有效捕捉骨架拓扑中不同关节点和帧之间的独特性和共现性。(2) 替换策略:提出了“自动学习图卷积网络”(AL-GCNs),该网络大胆移除了常见的自适应模块,并巧妙地利用人体关键点作为运动补偿机制,以提供动态相关性支持。AL-GCNs在空间和时间维度上构建了一个完全可学习的组邻接矩阵,从而形成了一个优雅且高效的基于GCN的模型。此外,本文还介绍了三种有效的基于骨架的动作识别技术(跳过块机制、贝叶斯权重选择算法和简化维度注意力机制),并对其进行了分析。最后,我们采用可变通道和分组方法来探索这两种提出模型的硬件资源限制。IC-GCN和AL-GCN在NTU-RGB+D 60、NTU-RGB+D 120、NW-UCLA和UAV-Human数据集上表现出了出色的性能,并具有优异的参数成本比。
引言
通过骨架识别人类动作是多媒体研究中的一个重要领域,它结合了图形信息处理和视觉技术。骨架提供了关于关节位置和运动的详细信息,有助于生成时空特征和运动特征。这种方法使算法能够优先处理动作特有的特征,并减少背景干扰。得益于这些优势,基于骨架的方法被广泛应用于医疗保健[3]、[4]、视频监控[5]、[6]、工业控制[7]、自动驾驶[8]、[9]、智能交通[10]和人机交互[12]等领域。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号