
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于注意力机制与DenseNet融合的SNDA模型:美国手语识别新突破
【字体: 大 中 小 】 时间:2025年07月09日 来源:Scientific Reports 3.8
编辑推荐:
本研究针对当前美国手语(ASL)识别技术存在的准确性和鲁棒性不足问题,开发了新型Sign Nevestro Densenet Attention(SNDA)架构。通过融合DenseNet特征提取与注意力机制,采用Nadam优化器,在包含64,000张图像的ASL数据集上实现99.76%的识别准确率,为听障群体通信无障碍化提供了创新解决方案。
在数字化时代,手语作为听障人士的"母语"却面临技术壁垒——现有识别系统常因光线变化、手势相似性等问题错误百出,就像"结巴的翻译官"。这种技术瓶颈不仅造成日常沟通障碍,更将听障群体隔离在数字世界之外。Kafrelsheikh大学人工智能学院的研究团队在《Scientific Reports》发表的突破性研究,通过仿生学思路开发出SNDA模型,其识别精度媲美人类手语专家,为消除"数字鸿沟"提供了关键技术支撑。
研究采用三大核心技术:1)基于DenseNet121的密集连接特征提取框架,通过特征重用机制捕捉手势细微差异;2)动态注意力模块(式2)自动聚焦关键手部区域;3)Nadam优化器(式3-7)实现快速收敛。实验使用Kaggle公开的ASL数据集(含56,000训练图像)和Sign-Language MNIST数据集进行验证。
【The proposed work】
SNDA架构创新性地将DenseNet的密集连接块(式1)与空间注意力机制结合。如算法1所示,模型通过全局平均池化层和512维全连接层构建分类器,采用0.5概率的Dropout防止过拟合。图1直观展示了该架构如何通过多层次特征融合提升识别效果。
【Results and discussion】
在ASL数据集上,SNDA以99.76%准确率超越所有对比模型(表4),其中InceptionV3+Nadam(99.96%)和ResNet50+Adam(96.94%)分列二三位。值得注意的是,模型展现出完美的敏感性(100%),意味着从不会漏识别正确手势。图2的KDE分布和图3的学习曲线证实了模型的稳定收敛特性。Sign-Language MNIST数据集的测试中(图15),SNDA更实现100%分类准确率,且t检验显示其显著优于基线模型(p<0.0001)。
【Conclusion and future work】
该研究证实了注意力机制与经典架构融合的可行性:1)密集连接结构使梯度可直接传递至浅层(式8),解决手势识别中的梯度消失问题;2)动态注意力权重(式2)使模型能自适应不同光照条件下的手势特征。实际应用中,模型在边缘设备(Raspberry Pi 4)上单帧处理仅需200-300ms,具备实时部署潜力。研究者建议未来拓展动态手势识别和多模态融合方向,进一步完善听障群体的数字包容生态。
这项来自埃及研究团队的成果,不仅刷新了ASL识别技术指标,更通过开源代码(DOI:10.5281/zenodo.15725210)推动领域共同发展,彰显了人工智能促进社会公平的重要价值。
生物通微信公众号
知名企业招聘