融合几何与时空深度特征的高精度阿拉伯手语识别技术研究

【字体: 时间:2025年08月10日 来源:CMES - Computer Modeling in Engineering and Sciences

编辑推荐:

  为解决阿拉伯手语(ArSL)识别中因手势变异性、遮挡和数据集稀缺导致的识别精度不足问题,研究人员提出了一种融合3D骨骼几何特征与I3D时空特征的集成分类框架。通过特征级融合与多数投票策略,模型在ArabSign数据集上实现97%的F1-score,较现有方法提升7%以上,为听障群体提供了可实时部署的高鲁棒性解决方案。

  

在阿拉伯语国家,约有500万听障人士依赖阿拉伯手语(ArSL)进行交流,但现有识别技术面临三大挑战:手势执行存在显著的个体差异(如手部朝向和速度),相似手势易混淆(如"和平"与"去向"),以及缺乏大规模标注数据。更棘手的是,ArSL存在显著的地区性变体且缺乏标准化语法,这使其识别难度远超美国手语(ASL)。传统方法要么仅依赖骨骼数据忽略动态细节,要么仅用视频特征丢失空间结构信息,导致在真实场景中识别准确率普遍低于90%。

为突破这一瓶颈,King Salman Center for Disability Research (KSCDR,沙特阿拉伯国王萨尔曼残疾研究中心)的Yazeed Alkharijah团队创新性地将3D骨骼关节的几何特征与RGB视频的时空特征相结合。他们从ArabSign数据集的9335个视频样本中,提取25个关节点的距离矩阵(300维)和角度特征(公式6-9),同时通过Inflated 3D ConvNet(I3D)提取1024维的深度运动特征。采用Pearson相关系数阈值0.9进行特征筛选后,通过XGBoost、随机森林和SVM的多数投票集成,最终构建出兼顾精度与效率的识别框架。相关成果发表在《CMES - Computer Modeling in Engineering and Sciences》上。

关键技术包括:1) 基于MediaPipe的3D关节点动态追踪;2) 骨骼几何特征(关节欧氏距离与角度)的帧间聚合;3) I3D网络提取RGB视频的时空特征;4) 基于Pearson系数的特征降维(保留79%特征);5) 轻量级集成分类器组合。

4.2.1 几何特征提取

通过计算关节点间距离dijf=√((xif-xjf)2+(yif-yjf)2+(zif-zjf)2)和角度θijkf=atan2(yjf-yif,xjf-xif)-atan2(ykf-yjf,xkf-xjf),构建出描述手势结构的300维特征向量。

4.2.2 时空特征提取

采用I3D网络处理RGB视频流,通过3D卷积核捕获连续帧间的运动模式,最终提取1024维特征向量表征手势动态特性。

5. Experiment Results

在50类ArSL句子识别中,单一模态的最佳F1-score仅为92.6%(骨骼)和86.8%(I3D),而融合框架达到97.3%。特别在易混淆手势(如类1、33)上,融合模型将准确率从81%提升至95%。特征选择使推理时间从1.5秒降至1.2秒,同时保持97%的F1-score。

这项研究的意义在于:首次将骨骼几何特征(距离/角度)与I3D深度特征在阿拉伯手语识别中实现特征级融合,通过轻量级集成策略在CPU上实现实时推理(1.5秒/样本),为教育、社交等场景提供了可落地的辅助技术方案。未来可通过增加方言手势数据和探索自监督学习,进一步提升模型的泛化能力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号