用于少样本骨架基础动作识别的双重注意力聚焦网络
《Knowledge-Based Systems》:Dual Attention Focus Network for Few-Shot Skeleton-Based Action Recognition
【字体:
大
中
小
】
时间:2025年09月29日
来源:Knowledge-Based Systems 7.6
编辑推荐:
DAF-Net通过融合焦点注意力机制和优化原型生成策略,提升少数样本骨骼动作识别的细粒度特征建模能力,在跨骨骼关系建模和动态时间对齐方面实现创新。
在人工智能和计算机视觉领域,动作识别是一项重要的研究方向,它旨在从视频或传感器数据中理解人类的行为模式。尤其是在医学、智能监控和人机交互等应用中,精准的动作识别技术具有广泛的价值。然而,传统的动作识别方法往往依赖于大量标注数据,这在实际应用中存在诸多限制。为了解决这一问题,近年来研究者们将目光投向了“少样本动作识别”(Few-Shot Action Recognition, FSAR)技术,其核心目标是在仅有少量样本的情况下,实现对新动作类别的有效识别。少样本动作识别在医疗康复、个性化训练等场景中尤为重要,因为这些场景中获取大量标注数据的成本和难度极高。
在众多动作识别技术中,基于骨架的动作识别(Skeleton-based Action Recognition)因其轻量化、鲁棒性强以及对复杂背景的适应性,逐渐成为研究热点。骨架数据通常由三维坐标点构成,表示人体关键部位的运动轨迹。这种方法不仅能够捕捉到动作的时空特性,还能在数据缺失或遮挡的情况下保持较高的识别准确率。然而,基于骨架的动作识别在少样本学习中仍然面临挑战,尤其是在建模骨架内部关系和骨架之间关系时,传统方法往往存在不足。
当前,许多少样本动作识别方法主要关注骨架内部的局部关节依赖关系,或侧重于骨架之间的整体匹配。前者通过分析单个骨架中的关节运动,来提取动作特征,但可能忽略了全局运动模式,从而导致对复杂动作的识别能力受限。后者则通过比较不同骨架之间的整体相似性,实现跨骨架的动作识别,但在处理动作细节时可能不够精准。例如,在“跳跃”这类需要多关节协调的动作中,传统方法可能仅关注腿部关节的运动,而忽视了手臂在保持平衡中的重要作用,这使得模型难以准确区分相似动作。
为了克服上述问题,本文提出了一种名为“DAF-Net”的新框架,旨在通过融合骨架内部和骨架之间的注意力机制,提升少样本骨架动作识别的性能。DAF-Net的核心思想是引入“聚焦注意力”(Focal Attention)策略,使模型能够同时关注骨架内部的局部关节特征和骨架之间的全局语义关系。通过这种方式,DAF-Net不仅能够更全面地捕捉动作的细节,还能在不同骨架之间建立更准确的语义对应关系,从而增强模型的泛化能力和识别精度。
在模型设计方面,DAF-Net采用了一种双注意力机制,包括自我注意力(Self-Attention)和交叉注意力(Cross-Attention)。自我注意力用于建模骨架内部的关节关系,强调关键部位的运动特征,而交叉注意力则用于在不同骨架之间建立语义关联,捕捉动作的全局模式。这种双重注意力机制使得模型能够在局部和全局层面进行更精细的特征提取和匹配。例如,在识别“跳跃”动作时,DAF-Net不仅能够关注腿部关节的动态变化,还能识别手臂在动作过程中的协调作用,从而提升动作识别的准确性。
为了进一步提高模型的性能,DAF-Net引入了一种优化的原型网络(Prototype Network)策略,即“优化原型网络”(Optimized Prototype Network, OP-N)。在传统的原型网络中,每个类别的原型通常由支持样本的平均特征表示,但在少样本学习中,这种平均方法可能无法充分反映类别特征的细微差异。为此,OP-N通过分析查询样本和支持样本之间的余弦相似度,动态调整样本的权重,从而优化原型的生成过程。这种方法不仅提高了类别的表征准确性,还增强了模型对噪声和数据不平衡的鲁棒性。在多样本情况下,OP-N能够进一步强化对关键特征维度的关注,确保这些特征在不同样本中保持一致性,从而提升整体识别效果。
在时间匹配方面,DAF-Net利用余弦相似度评估骨架序列中局部特征的相似性,捕捉特定关节在不同时间点的运动方向差异。这有助于模型在时间维度上建立更精确的匹配关系,尤其是在处理动作的时序变化时,能够更准确地识别动作的开始、持续和结束阶段。此外,为了实现动态的时间对齐,DAF-Net还集成了“动态时间规整”(Dynamic Time Warping, DTW)算法。DTW能够处理不同长度和速度的骨架序列,使模型在识别复杂动作时具备更强的适应性。
为了验证DAF-Net的有效性,本文在三个公开的基准数据集上进行了实验,包括NTU-T、NTU-S和Kinetics-skeleton。这些数据集涵盖了多种动作类别,且在少样本学习条件下具有代表性。实验结果表明,DAF-Net在这些数据集上均取得了显著的性能提升,特别是在识别具有相似全局结构但不同局部运动模式的动作时,其识别准确率明显优于传统方法。这说明DAF-Net在建模动作细节和跨骨架语义关系方面具有优势,能够更有效地处理少样本条件下的动作识别任务。
在实际应用中,DAF-Net的性能提升具有重要意义。例如,在医疗康复领域,患者可能需要进行个性化的训练,而这些训练动作往往缺乏足够的标注数据。通过DAF-Net,系统可以在仅提供少量示例的情况下,准确识别患者的康复动作,从而提高康复训练的智能化水平。此外,在智能监控和人机交互场景中,DAF-Net也能够帮助系统在有限的数据条件下,实现对复杂动作的快速识别和响应。
综上所述,本文提出的DAF-Net是一种创新的少样本骨架动作识别框架,通过融合骨架内部和骨架之间的注意力机制,以及优化的原型生成策略,显著提升了动作识别的准确性和鲁棒性。实验结果验证了该方法在多个基准数据集上的有效性,表明其在处理复杂动作和少样本数据时具有良好的适应性和性能表现。未来,DAF-Net有望在更多实际应用场景中发挥作用,推动少样本动作识别技术的发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号