基于面部肌电信号的神经中文无声语音识别研究

【字体: 时间:2025年06月19日 来源:Speech Communication 2.4

编辑推荐:

  针对无声环境下语音交流的难题,研究人员创新性地开展基于面部肌电图(EMG)的中文无声语音识别研究。通过构建首个中文EMG-文本平行数据集,设计融合Transformer编码器和CTC解码器的端到端模型,并结合会话分类与拼音生成辅助任务优化特征学习。实验表明,该模型在句子级任务中字符错误率(CER)达38.0%,为语音康复、隐蔽通信等场景提供重要技术支撑。

  

在智能设备语音交互日益普及的今天,传统自动语音识别(ASR)技术已取得显著进展。然而,当声音无法产生或被环境噪声淹没时——例如在喉切除患者的语音康复、军事隐蔽行动或嘈杂工业场景中,现有技术便显得力不从心。这一挑战催生了无声语音识别技术的研究,其核心在于通过替代信号捕捉人体发声意图。其中,面部肌电图(Electromyography, EMG)因其能直接记录发音肌肉的电活动而成为理想的信息载体。尽管Gaddy和Klein(2020)已实现英语无声EMG信号到语音的转换,但中文这类表意文字系统的无声识别仍属空白,且缺乏适配深度学习的大规模平行数据集。

为突破这些限制,国内研究团队在《Speech Communication》发表论文,首次构建中文EMG-文本平行语料库,并开发基于Transformer的端到端神经网络模型。该模型创新性地引入会话分类和拼音生成双辅助任务,通过多任务学习提升特征表征能力,同时设计针对EMG信号特性的数据增强策略。实验显示,最佳模型在句子级任务中实现38.0%的字符错误率(CER),为无声环境下中文交流开辟了新途径。

关键技术包括:(1)采集多通道面部EMG信号构建中文平行数据集;(2)采用Transformer编码器提取时序特征,结合连接时序分类(Connectionist Temporal Classification, CTC)解码器实现帧到字符的转换;(3)设计会话分类(区分发音人)和拼音生成(捕捉语音学特征)辅助任务;(4)开发信号偏移、通道丢弃和时序扭曲三种数据增强方法。

【数据集】研究团队收集了发音人在默读中文语句时的面部EMG信号,经滤波、归一化后与文本对齐。该数据集包含多说话人、多会话的EMG-文本对,首次为中文无声ASR提供基准资源。

【方法论】基线模型采用Transformer-CTC架构处理EMG信号。创新点在于:(1)在编码器输出层并行接入两个辅助分类器:会话分类器通过交叉熵损失区分发音人,拼音分类器预测字符对应的拼音声母/韵母;(2)提出信号偏移(随机平移5%时长)、通道丢弃(随机屏蔽15%通道)和时序扭曲(动态时间规整)三种增强策略,提升模型鲁棒性。

【实验结果】消融实验表明:单独使用CTC解码的基线模型CER为45.2%,加入会话分类任务后降至41.3%,结合双辅助任务进一步优化至39.8%。数据增强带来额外2%的CER提升,最终模型在测试集上达到38.0%的CER。分析发现,模型对高频汉字(如“的”)识别准确率显著高于低频字,且辅音发音部位(如唇音b/p)对应的EMG特征更易被捕捉。

【结论与展望】该研究实现了中文无声语音识别从0到1的突破:(1)建立首个公开的中文EMG-文本平行语料库;(2)验证了Transformer-CTC框架在跨模态序列转换中的有效性;(3)揭示辅助任务能有效挖掘EMG信号的说话人无关语音特征。尽管当前CER与理想水平仍有差距,但该工作为后续研究提供了重要基线。未来可通过扩大数据集规模、融合视觉信息(如唇动)以及开发方言适配模型继续优化性能。这项技术在无障碍通信、特殊作业场景等领域具有广阔应用前景。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号