基于注意力机制与DenseNet融合的SNDA模型：美国手语识别新突破

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月09日 来源：Scientific Reports 3.8

编辑推荐：

　　本研究针对当前美国手语(ASL)识别技术存在的准确性和鲁棒性不足问题，开发了新型Sign Nevestro Densenet Attention(SNDA)架构。通过融合DenseNet特征提取与注意力机制，采用Nadam优化器，在包含64,000张图像的ASL数据集上实现99.76%的识别准确率，为听障群体通信无障碍化提供了创新解决方案。

在数字化时代，手语作为听障人士的"母语"却面临技术壁垒——现有识别系统常因光线变化、手势相似性等问题错误百出，就像"结巴的翻译官"。这种技术瓶颈不仅造成日常沟通障碍，更将听障群体隔离在数字世界之外。Kafrelsheikh大学人工智能学院的研究团队在《Scientific Reports》发表的突破性研究，通过仿生学思路开发出SNDA模型，其识别精度媲美人类手语专家，为消除"数字鸿沟"提供了关键技术支撑。

研究采用三大核心技术：1)基于DenseNet121的密集连接特征提取框架，通过特征重用机制捕捉手势细微差异；2)动态注意力模块(式2)自动聚焦关键手部区域；3)Nadam优化器(式3-7)实现快速收敛。实验使用Kaggle公开的ASL数据集(含56,000训练图像)和Sign-Language MNIST数据集进行验证。

【The proposed work】
SNDA架构创新性地将DenseNet的密集连接块(式1)与空间注意力机制结合。如算法1所示，模型通过全局平均池化层和512维全连接层构建分类器，采用0.5概率的Dropout防止过拟合。图1直观展示了该架构如何通过多层次特征融合提升识别效果。

【Results and discussion】
在ASL数据集上，SNDA以99.76%准确率超越所有对比模型(表4)，其中InceptionV3+Nadam(99.96%)和ResNet50+Adam(96.94%)分列二三位。值得注意的是，模型展现出完美的敏感性(100%)，意味着从不会漏识别正确手势。图2的KDE分布和图3的学习曲线证实了模型的稳定收敛特性。Sign-Language MNIST数据集的测试中(图15)，SNDA更实现100%分类准确率，且t检验显示其显著优于基线模型(p<0.0001)。

【Conclusion and future work】
该研究证实了注意力机制与经典架构融合的可行性：1)密集连接结构使梯度可直接传递至浅层(式8)，解决手势识别中的梯度消失问题；2)动态注意力权重(式2)使模型能自适应不同光照条件下的手势特征。实际应用中，模型在边缘设备(Raspberry Pi 4)上单帧处理仅需200-300ms，具备实时部署潜力。研究者建议未来拓展动态手势识别和多模态融合方向，进一步完善听障群体的数字包容生态。

这项来自埃及研究团队的成果，不仅刷新了ASL识别技术指标，更通过开源代码(DOI:10.5281/zenodo.15725210)推动领域共同发展，彰显了人工智能促进社会公平的重要价值。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号