基于Harris Hawk优化深度学习的智能手语识别系统研究:助力听障人士无障碍沟通

【字体: 时间:2025年09月04日 来源:Scientific Reports 3.9

编辑推荐:

  为解决听障人士与健听人群的沟通障碍,Abrar Almjally团队开发了一种基于Harris Hawk优化(HHO)的深度学习模型(HHODLM-SLR)。该研究通过双边滤波(BF)预处理、ResNet-152特征提取和双向长短期记忆网络(Bi-LSTM)分类,结合HHO算法优化超参数,在15,000个手语图像数据集上实现98.95%的识别准确率,为构建实时手语翻译系统提供了创新解决方案。

  

在全球约5%的听障人士面临沟通困境的背景下,手语识别(SLR)技术成为打破交流壁垒的关键。尽管现有研究在特定手语(如美国手语ASL、印度手语ISL)识别方面取得进展,但普遍存在数据集不足、连续手势识别困难、实时性差等瓶颈。Abrar Almjally和Wafa Sulaiman Almukadi在《Scientific Reports》发表的这项研究,创新性地将生物启发算法与深度学习结合,开发出性能卓越的HHODLM-SLR系统,为解决这一社会难题提供了技术突破。

研究团队采用多模态技术路线:首先通过双边滤波(BF)进行图像降噪处理,在保留边缘特征的同时消除背景干扰;随后利用152层深度残差网络(ResNet-152)提取高阶手势特征;再通过双向长短期记忆网络(Bi-LSTM)捕捉手势序列的时空关联性;最后引入Harris Hawk优化(HHO)算法自动调参,形成端到端的识别框架。实验采用包含15,000张10类手势图像的标准化数据集进行验证。

研究结果部分显示:在图像预处理阶段,双边滤波有效消除了背景噪声,同时保持了手势边缘锐度,为后续特征提取奠定基础。

特征提取方面,ResNet-152凭借其残差连接结构,成功解决了深层网络的梯度消失问题,通过式(1)-(4)所示的映射函数和自适应dropout机制,实现了92.9%的特征召回率。
时序建模环节,Bi-LSTM通过式(5)-(13)描述的门控机制,同时学习前向和后向上下文信息,将序列识别准确率提升至94.74%。
超参数优化阶段,HHO算法基于式(14)-(19)的捕食行为模拟,将模型收敛速度提升35%,最终在测试集上达到98.95%的识别准确率,显著优于对比模型。

这项研究的创新性体现在三个方面:技术上首次将HHO优化器应用于SLR领域,通过生物启发式搜索提升了模型性能;方法学上构建了BF-ResNet-BiLSTM-HHO的混合架构,实现了从图像增强到时序建模的全流程优化;社会价值方面,6.95秒的实时处理速度使系统具备实际部署潜力,为听障人士的社交融入提供了可行方案。研究团队也指出当前局限,如数据集单一性可能影响模型泛化能力,未来将通过多语言数据集整合和复杂场景测试进一步提升系统鲁棒性。这项工作为人工智能辅助特殊群体沟通树立了新标杆,其技术框架也可拓展至其他时序视觉识别领域。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号