一种基于模块选择的快速人体骨骼动作识别方法

《Displays》:A module selection-based approach for efficient skeleton human action recognition

【字体: 时间:2025年10月02日 来源:Displays 3.4

编辑推荐:

  动态模块选择框架优化骨架动作识别的效率与性能

  
柴书荣|拉胡尔·库马尔·贾恩|滕世宇|刘家庆|立山智代子|陈彦伟
日本大阪立命馆大学信息与工程学院研究生院

摘要

人类行为识别已成为当今人机交互的关键方面。现有的基于时空网络的人类行为识别方法虽然在性能上有所提升,但计算复杂度较高。这些方法通过一系列模块进行最终预测,每个模块包含用于提取相应特征的空间和时间模块。然而,这些模块在网络中的排列方式可能会影响针对特定样本的最佳配置。此外,这些方法需要较长的推理时间,因此在低配置设备上的实现颇具挑战性。为了解决这些问题,我们提出了一个基于决策网络的自适应框架,该框架能够动态确定空间和时间模块的排列方式,从而实现高效的网络设计。为了确定最佳网络结构,我们在局部和全局层面研究了模块选择决策机制。我们使用了三个公开可用的数据集进行了广泛实验。实验结果表明,我们提出的框架能够以最优方式排列模块,在保持性能的同时有效降低了计算成本。我们的代码可在以下链接获取:https://github.com/11yxk/dynamic_skeleton

引言

人类行为识别是人机交互领域中的一个重要问题[1]。它在视频监控、虚拟现实和计算机辅助手术等多种应用中都非常有用。近年来,人类姿态估计技术在估计人体骨骼关节方面取得了显著进展[2]。与RGB图像相比,基于骨骼的方法在处理不同背景时表现出更强的鲁棒性、可靠性和准确性。以往的研究采用了基于循环神经网络(RNNs)[3]、[4]或基于Transformer的网络[5]的框架,将骨骼数据视为序列数据。一些研究则使用卷积神经网络(CNNs)将骨骼数据转换为伪图像[6]。最近,图傅里叶变换(Graph Fourier Transform)被提出,将傅里叶分析扩展到图谱领域[7],随后引入了图卷积网络(Graph Convolutional Networks,GCNs),实现了从谱域到空间域的图卷积推广[8]。基于空间GCN的框架显著降低了计算成本,其多种应用也得到了研究[9]。与传统基于RNN和CNN的网络相比,GCN网络能够有效捕捉长距离依赖关系,同时保持人体的拓扑结构。
由于性能优越,现有方法大量使用图卷积网络(GCN)和时间卷积网络(TCN)分别提取空间和时间特征信息[10]、[11]、[12]、[13]、[14]、[15]、[16]。这些方法通过一系列模块提取空间和时间特征信息以进行预测。但这些方法存在两个主要缺点:首先,所有类型的人类行为的提取模块数量是固定的,而实际上最佳模块数量应根据具体行为进行调整。对于某些特定行为(如“阅读”),连续帧之间的差异很小,此时可以使用更多空间模块来强调空间信息;而对于“鼓掌”等行为,由于时间帧变化迅速,需要同时强调空间和时间特征。其次,这些提取模块的顺序是手动设计的,因此可能导致框架设计不佳,并且推理时间较长。
另一方面,实际应用中需要使用低配置设备来执行人类行为识别任务,因此该任务需要较低的计算成本。受近期动态方法[17]、[18]、[19]的启发,我们提出了一种高效的基于骨骼的人类行为识别模块选择策略。我们的方法在自适应选择网络结构的同时降低了计算成本。我们制定了在局部和全局层面进行决策的策略来确定最佳网络结构。我们在每个空间和时间模块之前添加了一个决策网络,以决定是否保留或删除这些模块。所提出方案的简单概述见图1。我们的贡献可以总结如下:
(1) 我们提出了一种用于基于骨骼的行为识别任务的模块选择技术,以优化空间和时间模块的排列及使用。
(2) 我们研究了框架中不同层次的决策网络。
(3) 此外,我们引入了稀疏损失函数,以在准确性和计算成本之间取得平衡。
(4) 该方法可以与其他先进方法结合使用。实验结果表明,我们提出的方案在保持相同准确性的同时,推理速度提高了多达三倍,FLOPs(G)也减少了。

部分内容摘要

基于骨骼的行为识别

颜等人[10]提出了空间时间图卷积网络(ST-GCN),这是最早使用GCN进行行为识别的研究之一。随后,多项研究[9]、[11]、[12]、[13]、[14]、[15]、[20]、[21]、[22]、[23]、[24]也采用了ST-GCN网络。在[12]中,程等人提出了Shift GCN,将CNN中的位移操作推广到GCN以降低计算成本。宋等人[13]提出了一种高效的轻量级GCN

提出的方法

我们构建了一个决策网络,用于在特征提取过程中决定保留还是删除某个模块。如果“跳过”(图2)的答案为“否”,则网络将通过GCN或TCN模块处理数据;否则将跳过这些模块,从而节省计算成本。通过避免在GCN或TCN模块中进行数据计算,我们可以降低计算成本。这种方法具有通用性,可以与大多数基于ST-GCN的网络结合使用。

实验

我们使用CTR-GCN[14]作为基础框架来验证我们提出方法的有效性,CTR-GCN是一种先进的动作识别方法。我们使用了三个大型公开可用的数据集(NTU-RGBD [41]、NTU-RGBD 120 [42]、Northwestern-UCLA [43])。此外,我们还将该方法与其他三种先进的动作识别方法(ST-GCN [10]、2s-AGCN [11]、MS-AAGCN [40])结合使用,以进一步验证其有效性。

结论

在这项工作中,我们提出了一种基于模块选择的方法来设计高效的人类行为识别网络结构。与其他基线模型相比,我们提出的基于决策网络的方法推理时间大约减少了三倍。准确性的下降几乎可以忽略不计。我们还分析了准确性和计算成本之间的权衡。此外,我们的方法可以轻松与其他先进的基于骨骼的方法结合使用。

CRediT作者贡献声明

柴书荣:方法论、软件开发、可视化、撰写——初稿。拉胡尔·库马尔·贾恩:方法论、形式分析、撰写——审阅与编辑。滕世宇:软件开发、撰写——审阅与编辑。刘家庆:数据调查、资源协调。立山智代子:数据调查、项目监督。陈彦伟:项目监督、资源管理、撰写——审阅与编辑。

利益冲突声明

作者声明他们没有已知的可能会影响本文研究的财务利益或个人关系。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号