融合手动与非手动特征的多流深度学习模型在孤立手语识别中的性能突破
《Scientific Reports》:A deep learning-based method combines manual and non-manual features for sign language recognition
【字体:
大
中
小
】
时间:2025年12月20日
来源:Scientific Reports 3.9
编辑推荐:
为解决手语识别中非手动特征(如头部姿态)易受视角变化影响,以及手动特征(如骨骼)难以捕捉长程依赖关系的问题,研究人员开展了一项结合头部姿态矫正与多尺度注意力图卷积网络(MSA-GCN)的研究。该研究在AUTSL和WLASL数据集上分别取得了90.5%和88.2%的识别准确率,F1分数均超过0.89,显著优于现有方法,为基于RGB视频的鲁棒性手语识别提供了新范式。
手语,作为全球数亿听力障碍人士的主要沟通方式,其复杂性远超简单的“手势比划”。它是一门完整的视觉语言,不仅包含手部动作(手动特征),还高度依赖面部表情、头部姿态、身体倾斜等非手动特征来传达语法、情感和语义的细微差别。例如,一个简单的摇头动作可能意味着否定,而眉毛的扬起则可能表示疑问。然而,当前大多数基于深度学习的手语识别系统存在两大核心痛点:
- 1.非手动特征的“视角脆弱性”:现有方法通常直接使用原始头部姿态或面部特征,但这些特征极易受到摄像头角度、拍摄距离和用户姿态变化的影响。同一个头部动作,从正面看和从侧面看,其视觉表现差异巨大,这给模型的学习带来了巨大干扰。
- 2.手动特征的“长程依赖”难题:手语动作中,手部与身体其他部位(如头部、躯干)的协同运动至关重要。例如,表达“尖叫”时,手部动作与夸张的面部表情紧密配合。传统的图卷积网络(GCN)主要关注相邻关节之间的局部连接,难以有效建模这种跨越身体多个部位的远距离依赖关系。
为了解决这些问题,来自沙特阿拉伯哈伊勒大学和突尼斯LaTICE实验室的研究团队在《Scientific Reports》上发表了一项新研究,提出了一种融合手动与非手动特征的多流深度学习框架,旨在通过几何矫正和注意力机制,让模型“看”得更准、更稳。
该研究提出了一种多流架构,其核心在于对非手动特征进行几何矫正,并对手动特征进行多尺度建模。研究团队在AUTSL(土耳其手语)和WLASL(美国手语)两个公开数据集上进行了评估,采用了与说话人无关的划分策略,以确保模型能够泛化到未见过的用户。主要技术方法包括:
- •头部姿态矫正:通过计算旋转矩阵,将输入图像从真实相机坐标系(RC)变换到虚拟相机坐标系(VC),使头部中心与光轴对齐,从而消除视角变化带来的影响。
- •骨骼图构建与归一化:从RGB视频中提取2D骨骼关键点,构建以关节为节点、骨骼为边的图结构。通过将坐标原点移至髋部中心,并利用躯干长度进行归一化,消除个体体型和位置差异。
- •多尺度注意力图卷积网络(MSA-GCN):设计了一种能够同时捕捉局部和长程空间依赖关系的图卷积模块。通过构建K-邻接矩阵(AK)来聚合不同距离的节点信息,并引入多尺度注意力机制(MSAM)自适应地融合不同尺度的特征。
- •注意力增强时序卷积网络(AETCN):用于建模手语动作的时序动态变化,通过注意力机制为关键帧分配更高的权重,忽略过渡动作的干扰。
研究人员首先验证了头部姿态矫正模块的有效性。如图3所示,该模块能够将不同视角下的头部图像统一矫正到正面视角。这种几何变换确保了后续提取的非手动特征(如面部表情、视线方向)是在一个标准化的坐标系下进行度量的,极大地提升了特征的一致性和鲁棒性。
为了验证MSA-GCN模块捕捉长程依赖的能力,研究人员对模型进行了可视化分析。如图5所示,在识别“尖叫”这一手语时,模型不仅关注了手部的局部动作,还通过注意力机制显著激活了手部与面部之间的连接。这表明模型能够有效学习到跨越身体多个部位的协同运动模式,这对于区分语义相近的手语至关重要。
为了量化每个模块对最终性能的贡献,研究团队在AUTSL数据集上进行了消融实验,结果如表6所示:
- •基线模型:仅使用未经矫正的2D骨骼数据,准确率为85.6%。
- •+头部姿态矫正(HPR):引入头部姿态矫正后,准确率提升至87.8%,证明了非手动特征对齐的重要性。
- •+归一化3D骨骼(3D-Norm):进一步引入归一化处理,准确率提升至88.9%,表明消除个体差异有助于模型泛化。
- •+多尺度注意力(MSA):加入多尺度注意力机制后,准确率提升至89.7%,验证了该机制在捕捉复杂空间模式上的有效性。
- •完整模型:整合所有模块后,模型在AUTSL数据集上取得了90.5%的最高准确率,相比基线提升了近5个百分点,充分证明了各模块的协同作用。
最终,该研究提出的完整模型在两个主流数据集上均取得了优异的性能,如表3所示:
- •AUTSL数据集:准确率达到90.5%,F1分数为0.91。
- •WLASL数据集:准确率达到88.2%,F1分数为0.89。
这些结果显著优于I3D、Pose-GRU和Pose-TGCN等基线方法,证明了该框架在孤立手语识别任务上的先进性和有效性。
本研究成功构建了一个结合手动与非手动特征的多流深度学习框架,通过头部姿态矫正和骨骼归一化解决了视角和个体差异问题,并利用多尺度注意力机制有效建模了手语动作中的长程空间依赖。实验结果表明,该模型在AUTSL和WLASL数据集上均取得了领先的识别性能,为基于RGB视频的鲁棒性手语识别提供了有力的解决方案。
尽管该模型在孤立词识别上表现出色,但作者也指出了其局限性。首先,模型尚未在连续手语识别(CSLR)任务上进行测试,而连续手语中的协同发音(Coarticulation)和边界分割问题更具挑战性。其次,模型的泛化能力依赖于精确的姿态估计,在存在遮挡或复杂背景的真实场景中,其性能可能会受到影响。未来,研究团队计划将模型扩展至连续手语识别,并探索更高效的架构以实现实时应用,最终推动手语识别技术在辅助沟通、人机交互等领域的实际落地。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号