基于混合Transformer-CNN模型的高效精准美国手语手势识别研究

【字体: 时间:2025年06月25日 来源:Scientific Reports 3.8

编辑推荐:

  为解决手语识别中计算量大、长距离关系建模困难、背景噪声敏感等问题,Mohammed Aly和Islam S.Fathi团队提出了一种结合CNN局部特征提取与Vision Transformer全局建模的混合模型。该模型通过双路径特征融合和元素乘法增强手势细节,在ASL Alphabet数据集上实现99.97%准确率,推理速度达110 FPS,仅需5.0 GFLOPs计算量,为实时手语识别提供了高效解决方案。

  

在全球约2.5亿听力障碍人群的沟通需求背景下,手语作为视觉-手势语言系统面临自动识别的重大挑战。现有方法存在三重困境:卷积神经网络(CNN)难以捕捉手势的全局上下文,纯视觉Transformer(ViT)计算资源消耗过大,而环境噪声和个体差异更导致识别准确率骤降。埃及俄罗斯大学的Mohammed Aly与约旦Ajloun国立大学的Islam S.Fathi合作,在《Scientific Reports》发表的研究通过创新性混合架构破解了这一难题。

研究团队设计了一种双路径特征提取的Hybrid Transformer-CNN模型。全局路径通过CNN捕获手势整体结构,手部专用路径则聚焦指尖、掌纹等细节特征,二者经元素乘法融合后输入ViT模块建模长程依赖关系。采用ASL Alphabet数据集(含87,000张图像)验证时,结合CutMix数据增强和对比学习策略,模型在保持110 FPS实时性能下,以5.0 GFLOPs的低计算量实现99.97%的分类准确率,显著优于传统ViT(12.5 GFLOPs)和CNN基准模型。

关键技术方法包括:1)双路径CNN架构(3×3卷积核+ReLU激活)分别提取全局和局部特征;2)元素级特征融合公式Fenhanced=Fprimary⊙Fauxiliary;3)16×16分块的2层ViT编码器(含4头自注意力);4)跨数据集域适应训练策略;5)综合评估指标(精度、召回率、F1-score及GFLOPs)。

模型架构与特征提取

通过并行CNN路径分别处理200×200像素的RGB输入,主路径提取手势空间特征,辅助路径专注手部区域细节。特征图经扁平化分块后,添加可学习位置编码输入ViT模块,其自注意力机制有效关联离散的手部区域,如图3所示。

双路径特征融合

区别于常规拼接或加法融合,元素乘法(公式1)使模型在复杂背景下仍能强化指尖朝向等关键特征。对比实验显示,该策略使准确率提升0.26%(99.71%→99.97%),如图1特征热图所示。

视觉Transformer集成

ViT模块通过多头自注意力(公式2-3)建立跨区域关联,如图8所示,即使存在遮挡或光照变化,注意力仍能聚焦于语义相关区域(如拇指与小指的空间关系),这是CNN局部感受野无法实现的特性。

训练优化策略

采用AdamW优化器(初始学习率0.0001)配合余弦衰减调度,结合权重衰减(0.01)和早停机制防止过拟合。对抗训练和CutMix增强使模型在测试集上保持99.97%准确率,混淆矩阵(图7)显示仅字母"M"、"W"存在0.7%以下的误判。

性能基准测试

如表6所示,模型在准确率(99.97% vs EfficientNet-B0 99.0%)、效率(5.0 GFLOPs vs ViT 12.5 GFLOPs)和实时性(110 FPS)三维度实现最优平衡。雷达图(图14)直观展示其全面优势,t检验(p<0.0001)证实性能提升具有统计显著性。

这项研究的意义在于:首先,元素乘法融合策略为多模态特征整合提供新范式;其次,轻量化设计使复杂模型可部署于移动设备;最后,注意力可视化(图16-17)增强了AI决策透明度。未来工作将扩展至动态手势识别和跨语言迁移,推动无障碍通信技术的实际应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号