基于嵌套特征融合与注意力机制的轻量级孟加拉手语识别系统IsharaNet

【字体: 时间:2025年08月12日 来源:Array 4.5

编辑推荐:

  为解决聋哑人与健听人之间的沟通障碍,研究人员开发了IsharaNet——一种融合并行卷积、嵌套特征融合和双重注意力机制的轻量级神经网络架构,用于孟加拉手语识别。该系统在BdSL47等四个最新数据集上实现最高99.85%的识别准确率,其宽度缩放结构和注意力模块显著提升了复杂手势特征的捕捉能力,为区域性手语自动识别提供了新范式。

  

在全球约4.3亿听力障碍人群中,手语作为核心沟通方式却面临"方言化"困境——仅孟加拉手语(BSL)就包含37个字母和10个数字的复杂手势体系,其丰富的表意方式导致传统识别方法准确率不足90%。更严峻的是,现有研究多聚焦英语等简单手语体系,对世界第七大语言的孟加拉语缺乏系统研究,致使数百万使用者面临"数字鸿沟"。这种技术缺位在医疗场景尤为致命:当急诊患者无法用手语描述症状时,可能延误最佳救治时机。

针对这一挑战,孟加拉国拉杰沙希工程技术大学(RUET)计算机科学与工程系的研究团队开发了创新框架IsharaNet。该架构通过并行卷积层实现多尺度特征提取,采用三级嵌套融合策略整合空间与通道注意力模块,最终在四个主流BSL数据集上突破99%识别准确率,相关成果发表于《Array》。

研究采用三大关键技术:1)基于Sobel滤波器的梯度预处理,通过|GMxy|=√(GAx2+GAy2)增强手势边缘特征;2)宽度可调的并行卷积块设计,包含1×1/3×3/5×5多核并行运算;3)双重注意力机制,其中通道注意力Mc(F)=σ(MLPc(Fmpc)+MLPc(Fapc))与空间注意力Ms(F)=σ(Conv2D7×7s(Fmps⊕Faps))协同优化特征权重。

材料与方法

团队构建了包含47,000张图像的BdSL47数据集,采用70-10-20比例划分训练集。核心创新是三级卷积模块:Block A采用1×1卷积核提取全局特征,Block B/C分别用3×3和5×5核捕捉局部细节,通过Efusion(Fm)=Conv2Di×if(F1f⊕F2f)实现特征融合。Dropout层(20%)和ReLU激活函数加速模型收敛。

实验结果

在BdSL47数字识别任务中,系统以99.85%准确率超越ResNet50V2(98.65%)等模型,其中"FIVE"手势因指节弯曲特征复杂,仍保持98.52%精确率。Grad-CAM可视化显示模型能准确定位指尖关键区域。对于KU-BdSL字母数据集,30类手势识别达99.67%,较传统VGG16提升7个百分点。

讨论与结论

该研究首次实现BSL全要素(字母/数字/单词)端到端识别,其4.1M参数量较MobileNetV2更轻量化。嵌套融合策略使F1-score提升8.15%,而注意力模块将混淆矩阵对角线值平均提高2.3%。这项突破不仅为多语种手语识别提供新架构参考,其临床转化潜力更体现在:在测试的11个医疗相关词汇(如"尿液")中实现100%识别率,为急诊手语翻译系统奠定技术基础。未来工作将扩展至动态手势识别和方言适应性研究。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号