基于注意力机制与DenseNet融合的SNDA模型:美国手语识别新突破

【字体: 时间:2025年07月09日 来源:Scientific Reports 3.8

编辑推荐:

  本研究针对当前美国手语(ASL)识别技术存在的准确性和鲁棒性不足问题,开发了新型Sign Nevestro Densenet Attention(SNDA)架构。通过融合DenseNet特征提取与注意力机制,采用Nadam优化器,在包含64,000张图像的ASL数据集上实现99.76%的识别准确率,为听障群体通信无障碍化提供了创新解决方案。

  

在数字化时代,手语作为听障人士的"母语"却面临技术壁垒——现有识别系统常因光线变化、手势相似性等问题错误百出,就像"结巴的翻译官"。这种技术瓶颈不仅造成日常沟通障碍,更将听障群体隔离在数字世界之外。Kafrelsheikh大学人工智能学院的研究团队在《Scientific Reports》发表的突破性研究,通过仿生学思路开发出SNDA模型,其识别精度媲美人类手语专家,为消除"数字鸿沟"提供了关键技术支撑。

研究采用三大核心技术:1)基于DenseNet121的密集连接特征提取框架,通过特征重用机制捕捉手势细微差异;2)动态注意力模块(式2)自动聚焦关键手部区域;3)Nadam优化器(式3-7)实现快速收敛。实验使用Kaggle公开的ASL数据集(含56,000训练图像)和Sign-Language MNIST数据集进行验证。

【The proposed work】
SNDA架构创新性地将DenseNet的密集连接块(式1)与空间注意力机制结合。如算法1所示,模型通过全局平均池化层和512维全连接层构建分类器,采用0.5概率的Dropout防止过拟合。图1直观展示了该架构如何通过多层次特征融合提升识别效果。

【Results and discussion】
在ASL数据集上,SNDA以99.76%准确率超越所有对比模型(表4),其中InceptionV3+Nadam(99.96%)和ResNet50+Adam(96.94%)分列二三位。值得注意的是,模型展现出完美的敏感性(100%),意味着从不会漏识别正确手势。图2的KDE分布和图3的学习曲线证实了模型的稳定收敛特性。Sign-Language MNIST数据集的测试中(图15),SNDA更实现100%分类准确率,且t检验显示其显著优于基线模型(p<0.0001)。

【Conclusion and future work】
该研究证实了注意力机制与经典架构融合的可行性:1)密集连接结构使梯度可直接传递至浅层(式8),解决手势识别中的梯度消失问题;2)动态注意力权重(式2)使模型能自适应不同光照条件下的手势特征。实际应用中,模型在边缘设备(Raspberry Pi 4)上单帧处理仅需200-300ms,具备实时部署潜力。研究者建议未来拓展动态手势识别和多模态融合方向,进一步完善听障群体的数字包容生态。

这项来自埃及研究团队的成果,不仅刷新了ASL识别技术指标,更通过开源代码(DOI:10.5281/zenodo.15725210)推动领域共同发展,彰显了人工智能促进社会公平的重要价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号