
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于生成对抗网络的颈面部表面肌电信号汉语语音重建研究
【字体: 大 中 小 】 时间:2025年06月13日 来源:Medicine in Novel Technology and Devices CS5.1
编辑推荐:
为解决喉切除及声带麻痹患者的语音功能丧失问题,研究人员开展基于生成对抗网络(GAN)的颈面部表面肌电信号(sEMG)汉语语音重建研究,通过多尺度特征提取和波形直接合成技术,实现MCD 8.45 dB、F0相关系数0.71的语音重建,为无声语音接口开发提供新思路。
语音是人类交流的核心载体,但喉切除手术或声带麻痹等疾病会导致患者永久性失声。现有辅助技术如电子喉、食管发音存在音质机械、使用不便等缺陷,而保留完整神经通路的患者仍能通过肌肉电信号传递语音意图。如何从这些生物电信号中解码出自然流畅的语音,尤其是对声调变化丰富的汉语实现精准重建,成为康复工程领域的重大挑战。
北京航空航天大学联合日本名古屋大学的研究团队在《Medicine in Novel Technology and Devices》发表创新成果,首次将生成对抗网络(GAN)应用于汉语的sEMG语音重建系统。该研究突破传统"肌电-文本-语音"或"肌电-声学参数-语音"的级联模式,通过端到端模型直接合成波形,同步优化频谱、基频(F0
)和声调特征。
关键技术包括:1)采用20通道sEMG采集系统同步记录颈面部肌肉电信号与语音波形;2)设计包含时域特征(TD)的滑动窗口算法提取2790维特征向量;3)构建生成器-判别器协同框架,生成器采用六层一维卷积编码和四层转置卷积上采样,配合多分辨率融合(MRF)模块;4)引入多尺度(MSD)和多周期(MPD)双判别器优化波形质量;5)综合对抗损失、特征匹配损失和Mel谱损失进行联合训练。
研究结果部分:
数据采集与特征提取
通过脑电帽系统采集18个通道的sEMG信号,电极覆盖唇周、下颌及颈部肌肉群。采用30ms窗口/10ms步长的九点双平均法分离高低频成分,提取包括均方根、过零率等5类时域特征,结合15帧上下文构建特征矩阵。
语音重建模型性能
测试集显示,经特征处理的TDP模型较原始信号基线显著提升,字符错误率(CER)从0.7851降至0.3243,声调错误率(TER)从0.7466降至0.2613。混淆矩阵显示唇音(如/b/,/m/)重建准确率达70%,但舌尖音(如/z/,/s/)较低。
语音质量评估
Mel倒谱失真(MCD)为8.45dB,log F0
均方根误差0.40,基频相关系数0.71,清浊音判断准确率0.80。主观MOS评分显示,重建语音自然度达3.31分(5分制),韵律得分3.69分,显著优于基线模型的2.43分和2.80分。
声学特征可视化
Mel谱图对比显示,TDP方法能较好保留谐波结构和共振峰位置,F0
轨迹与原始语音趋势一致,尤其在声调变化明显的音节处。
讨论与结论指出,该研究首次验证了GAN在汉语sEMG语音重建中的可行性,其创新点在于:1)绕过传统声码器直接合成波形;2)通过对抗训练保留汉语特有的声调特征;3)双判别器架构增强频谱和周期性特征。局限性在于单说话人数据及舌部运动信息缺失,未来拟结合超声舌像(UTI)提升发音器官运动捕捉能力。该技术为开发新一代无声语音 prosthesis 提供了理论基础,对改善言语障碍患者生活质量具有重要意义。
生物通微信公众号
知名企业招聘