基于卷积双向长短期记忆网络的表面肌电信号无声语音识别系统在发音障碍患者中的应用研究

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月14日 来源：Biomedical Signal Processing and Control 4.9

编辑推荐：

　　本文推荐：该研究创新性地提出ConVbi框架，结合卷积神经网络(CNN)和双向长短期记忆网络(biLSTM)，通过表面肌电信号(sEMG)解码印度语无声语音，准确率达98.72%。研究填补了非英语语种无声语音识别空白，为功能性发音障碍(dysphonia)患者提供了高效辅助沟通方案。

亮点

无声语音技术通过神经信号、肌肉运动等生理线索，在无需发声的情况下实现意图表达。本研究针对功能性发音障碍患者保留的发音肌群控制能力，开发基于sEMG的印度语语音合成系统。

研究方法

提出ConVbi框架，整合CNN时空特征提取与biLSTM序列建模优势，处理10类印度语词汇的10,166条sEMG记录。通过XceptionNet生成频谱图，结合动态特征增强模型鲁棒性。

主要成果

实验显示：准确率98.72%，精确率98%，召回率98%，F1值98%。显著优于传统模型，验证了肌电信号解码印度语无声语音的可行性。

创新价值

• 创建首个印度语无声语音数据集

• 开发融合深度特征的实时分类系统

• 为发音障碍群体提供自然沟通界面

技术突破

频谱图转换技术成功捕捉发音肌群激活模式，CNN-biLSTM组合有效建模时序依赖关系，解决小样本数据下的过拟合问题。

应用前景

适用于临床医疗（疼痛表达）、军事静默通讯等场景，推动跨语言辅助技术发展。

结论

ConVbi框架证实sEMG信号可高精度解码为印度语语音，为特殊人群人机交互开辟新途径。

（注：严格遵循要求处理专业术语、上下标及间隔符，未保留文献引用标识）

热点排行

联系信箱：

粤ICP备09063491号