
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于WaveNet与CNN-BiLSTM模型的脑瘫及ALS患者构音障碍增强检测:可解释性模型的对比研究
【字体: 大 中 小 】 时间:2025年06月09日 来源:Biomedical Signal Processing and Control 4.9
编辑推荐:
本研究针对脑瘫(CP)和肌萎缩侧索硬化症(ALS)患者构音障碍(dysarthria)诊断的主观性和延迟性问题,提出融合WaveNet架构与实时适应框架的深度学习解决方案。通过TORGO数据库和俄语数据集验证,模型实现F-score 0.91965和MCC 0.89320的优异性能,结合SHAP和Grad-CAM技术增强可解释性,为多语言环境下的临床诊断提供高效工具。
构音障碍(dysarthria)作为神经系统疾病常见的伴随症状,每年影响全球数百万脑瘫(CP)和肌萎缩侧索硬化症(ALS)患者的言语功能。传统诊断依赖医生主观评估,存在效率低、一致性差等痛点。尽管机器学习在语音识别领域取得进展,但现有模型对构音障碍特有的时序特征捕捉不足,且缺乏临床可解释性。更棘手的是,多语言场景下的模型泛化能力与医疗设备的算力限制,成为技术落地的关键瓶颈。
针对这些挑战,研究人员开展了一项突破性研究。通过整合TORGO数据库(含2000例CP/ALS患者与健康人样本)和俄语语音数据集,团队系统比较了随机森林(Random Forest)、XGBoost等传统算法与CNN-LSTM等深度学习模型的性能差异。研究创新性地改造了原用于语音合成的WaveNet架构,利用其扩张卷积(dilated convolution)特性捕捉语音信号的长期依赖关系,并引入实时适应框架优化边缘设备部署。实验采用Mel-Frequency Cepstral Coefficients(MFCC)作为特征输入,通过SHAP值和Grad-CAM技术实现决策过程可视化。
WaveNet架构
研究对WaveNet进行针对性改进,通过堆叠扩张卷积层构建分层感受野,有效提取语音信号的多尺度时序模式。相较于传统CNN的固定窗口限制,该架构能捕捉长达数秒的语境信息,这对识别构音障碍特有的断续性发音至关重要。
Proposed work
提出的分类系统包含数据预处理、特征工程和模型优化三大模块。音频样本经MFCC转换后,输入包含残差连接的WaveNet网络,输出层采用Softmax激活进行三分类(CP/ALS/健康)。特别设计的参数共享机制显著降低了模型复杂度,使推理速度提升40%。
Experimental results
在3GHz i5处理器设备上的测试显示,WaveNet模型以92.04%的精确度全面超越对比模型。尤为突出的是在俄语数据集上的表现,F-score达0.899,证明其跨语言适应性。模型计算耗时仅17ms/样本,满足实时诊断需求。
Discussion and limitations
尽管在单一语种场景下CNN-BiLSTM取得0.891的F-score,但WaveNet在混合数据集上的稳健性更优。可解释性分析揭示基频(F0)和共振峰(formant)是模型判断的关键特征,这与临床经验高度吻合。但研究也承认,样本年龄分布不均可能影响泛化能力。
Conclusion
该研究首次将WaveNet成功应用于构音障碍诊断,其0.893的MCC值设定了新的性能基准。通过融合实时计算与可解释AI技术,不仅解决了临床部署的可行性问题,更建立了人机协作的诊断新模式。未来工作将扩展至更多语种,并探索与移动医疗设备的深度集成。论文成果发表于《Biomedical Signal Processing and Control》,为智慧医疗在言语病理学中的应用提供了重要范式。
生物通微信公众号
知名企业招聘