用于长时间动作质量评估的骨骼时空解耦Transformer
《Knowledge-Based Systems》:Skeletal Spatio-Temporal Decoupling Transformer for Long-Duration Action Quality Assessment
【字体:
大
中
小
】
时间:2025年10月23日
来源:Knowledge-Based Systems 7.6
编辑推荐:
动作质量评估中长时视频分析存在时空特征耦合问题,本文提出时空解耦Transformer框架,通过并行处理空间关节关系与时间运动模式,结合图卷积与Transformer机制,增强对复杂动作序列的建模能力。实验表明该方法在滑冰、体操等长时数据集上较SOTA方法提升15.2%-22.7%。
本文探讨了一种用于长时序动作质量评估(Action Quality Assessment, AQA)的新方法,该方法通过构建一个基于骨骼数据的时空解耦Transformer框架,解决了传统方法在处理长时序动作时所面临的两个关键问题。首先,许多现有方法忽略了人类运动过程中姿势变化的动态特性;其次,基于Transformer的方法往往将空间结构和运动信息耦合在一起,导致难以有效提取关键的运动模式和长期依赖关系。针对这些问题,本文提出了一种全新的骨骼特征学习框架,该框架通过并行处理空间和时间信息,提高了对复杂动作的评估精度。
在实际应用中,AQA任务对于体育赛事、医疗康复和技能训练评估具有重要意义。例如,在花样滑冰比赛中,裁判需要根据运动员完成的滑行、旋转和跳跃动作的完成度、流畅性和表现力进行评分。这些动作通常持续时间较长,且包含多种复杂的姿态变化和运动模式。因此,对长时序动作的评估不仅需要准确捕捉每个动作的细节,还需要理解其在整个运动过程中的时空关系。然而,传统的RGB视频处理方法往往依赖于局部特征提取,难以全面描述长时序动作的全局信息。
为了应对这些挑战,本文引入了一种基于骨骼数据的特征提取方法。该方法首先从RGB视频中提取骨骼数据,然后通过图卷积网络(Graph Convolution Network, GCN)和时间卷积网络(Temporal Convolution Network, TCN)分别学习骨骼序列中的局部空间结构和时间运动模式。这种方法的创新点在于将空间和时间信息的处理过程解耦,使得模型能够更专注于特定维度的信息提取,从而提高特征学习的效率和准确性。此外,本文还设计了一个全局关节注意力编码器,用于提取骨骼序列中所有关节之间的全局上下文信息,从而增强模型对复杂动作的理解能力。
本文提出的框架主要由三个核心组件构成:时空解耦Transformer模块(STDT)、全局关节注意力编码器和评分预测器。其中,STDT模块包含两个独立的分支:空间解耦分支和时间解耦分支。空间解耦分支负责提取每个帧中的代表性的空间结构和关节交互信息,而时间解耦分支则专注于提取关键的运动模式,并建模关节在时间维度上的长期依赖关系。这两个分支通过并行处理方式独立运行,避免了传统方法中空间和时间信息耦合所带来的信息丢失问题。
为了进一步提升模型的性能,本文还结合了图卷积网络和Transformer的优势,构建了一个能够同时获取局部和全局上下文信息的特征提取模块。具体来说,首先利用GCN和TCN分别学习骨骼序列中的局部空间结构和时间运动模式,然后通过Transformer的注意力机制建模每个帧中所有关节之间的隐含关系,并在不同帧之间建立关节间的潜在联系。这种方法不仅能够捕捉到骨骼序列中的局部特征,还能够通过全局注意力机制更好地理解整个动作的时空结构,从而实现更精确的评估。
本文提出的框架在三个基准数据集上进行了验证,包括扩展的MIT-Skate数据集、韵律体操数据集和Fis-V数据集。实验结果表明,该方法在计算效率和评估精度方面均优于现有的先进方法。此外,通过消融实验和可视化分析,本文进一步验证了该方法在长时序动作质量评估任务中的有效性。消融实验表明,时空解耦机制和全局注意力编码器对模型性能的提升具有显著贡献。可视化分析则展示了模型在不同动作实例中的特征提取能力,以及其对关键动作细节的关注程度。
本文的研究成果对于推动AQA技术在体育赛事、医疗康复和技能训练等领域的应用具有重要意义。通过构建一个能够有效处理长时序动作的特征提取框架,本文为未来的研究提供了新的思路和方法。同时,本文也强调了模型的灵活性和可解释性,这对于实际应用中对评估结果的解释和反馈具有重要价值。此外,本文还讨论了该方法在实际部署中的计算效率,这对于资源受限的环境(如移动设备或嵌入式系统)具有重要意义。
综上所述,本文提出了一种基于骨骼数据的时空解耦Transformer框架,用于解决长时序动作质量评估任务中的关键问题。该方法通过并行处理空间和时间信息,提高了特征提取的效率和准确性,同时结合了图卷积网络和Transformer的优势,实现了对复杂动作的全面理解和评估。实验结果表明,该方法在多个基准数据集上均表现出色,为未来的研究提供了有力的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号