基于语音信号与混合自编码器-LSTM模型的帕金森病诊断方法研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年05月26日 来源：Computers in Biology and Medicine 7.0

编辑推荐：

　　本研究针对帕金森病（PD）早期诊断难题，提出了一种基于语音信号与混合自编码器（AE）-长短期记忆（LSTM）模型的智能诊断系统。通过对比简单自编码器（SAE）、卷积自编码器（CAE）和循环自编码器（RAE）的性能，并结合LSTM层进行深度优化，最终CAE-LSTM混合模型以95.79%的准确率实现PD的高效识别，为无创、低成本早期筛查提供了新思路。

帕金森病（Parkinson’s disease, PD）作为仅次于阿尔茨海默病的第二大神经退行性疾病，全球约1000万患者深受其害。这种由脑内多巴胺减少引发的疾病，虽尚无根治方法，但早期干预可显著延缓病情进展。然而，传统诊断依赖主观量表（如Hoehn-Yahr量表）或昂贵检测手段（如多巴胺转运体成像DAT），而90%患者早期出现的语音障碍虽难以被人耳察觉，却为声学分析提供了突破口。现有研究多依赖手工特征提取或时频图像转换，存在处理复杂、泛化性差等问题，亟需一种能直接处理原始语音信号的高效模型。

为此，研究人员提出了一种融合自编码器（Autoencoder, AE）与长短期记忆网络（LSTM）的混合模型。研究采用意大利帕金森语音数据集（IPVS），包含15名年轻健康人、22名老年健康人和28名PD患者的语音记录。通过构建简单AE（SAE）、卷积AE（CAE）和循环AE（RAE）进行消融分析，并进一步与LSTM层杂交及加深网络深度，系统评估了模型性能。

结果

基础模型对比：RAE在基础模型中表现最佳，凸显循环结构对时序语音特征的捕捉优势。
混合模型突破：CAE-LSTM以95.79%准确率成为最优模型，较基础AE性能提升显著，证实卷积特征与LSTM时序建模的协同效应。
深度影响：网络加深至一定程度可提升分类性能，但过度加深会导致收益递减，且效果因AE类型而异。

讨论与结论
该研究首次系统评估了不同类型AE在PD语音诊断中的效能，并创新性地通过LSTM杂交解决了传统AE对时序特征建模不足的缺陷。CAE-LSTM模型直接处理1D语音信号，避免了时频转换的计算负担，同时通过深度学习自动提取特征，克服了手工特征工程的局限性。研究为PD早期筛查提供了高精度、低成本的解决方案，其方法论亦可拓展至其他神经退行性疾病的声学诊断领域。论文发表于《Computers in Biology and Medicine》，为人工智能辅助医疗诊断树立了新范式。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号