基于递归图和梅尔谱图的语音分析新方法在帕金森病诊断中的突破性研究

《IEEE Journal of Biomedical and Health Informatics》:A Novel Approach to Distinguish Parkinson's Disease Patients from Healthy Control Subjects Using Speech-Based Task Analysis

【字体: 时间:2025年11月22日 来源:IEEE Journal of Biomedical and Health Informatics 6.8

编辑推荐:

  本研究针对帕金森病(PD)早期诊断难题,提出了一种融合递归图(RP)、递归量化分析(RQA)、梅尔频谱图(Mel-spectrograms)和梅尔频率倒谱系数(MFCCs)的语音分析新方法。通过卷积神经网络(CNN)提取特征并结合支持向量机(SVM)分类,在西班牙PC-GITA和希腊语音数据集上实现了超过90%的分类准确率,为PD的早期筛查提供了非侵入性、高精度的生物标志物检测方案。

  
当詹姆斯·帕金森在1817年首次描述"震颤麻痹"时,他可能不会想到两个世纪后,这种疾病已成为全球第二大神经退行性疾病。帕金森病(PD)如同一个隐匿的窃贼,悄悄夺走患者控制运动的能力,而其中语音障碍往往是最早的预警信号——近90%的患者会出现声音颤抖、音量减小、发音含糊等特征。然而,传统的临床诊断高度依赖医生的主观判断,缺乏客观量化指标,使得早期诊断和病情监测面临巨大挑战。
正是在这样的背景下,来自希腊研究团队在《IEEE Journal of Biomedical and Health Informatics》发表了一项创新研究,他们开发了一种基于语音分析的人工智能诊断系统,能够以超过90%的准确率区分帕金森病患者和健康人群。这项研究的突破性在于将非线性动力学分析方法与传统的语音处理技术相结合,为帕金森病的早期诊断开辟了新途径。
研究团队采用了几项关键技术方法:首先创新性地将递归图(RP)分析方法应用于长时程语音信号,通过滑动窗口技术解决了传统RQA方法对信号长度的限制;同时提取梅尔频谱图和MFCCs等经典语音特征;利用卷积神经网络(CNN)从RP和梅尔频谱图中自动学习特征;最后通过支持向量机(SVM)进行分类。研究使用了西班牙PC-GITA数据集(50名PD患者和50名健康对照)和希腊数据集(各10名)进行验证,涵盖了元音、音节、单词和句子等多种语音任务。
递归图与RQA特征提取
研究团队提出了一种创新的滑动窗口方法处理长语音信号。将每个语音信号分为5个非重叠窗口,每个窗口进一步划分为64个样本的片段,通过迭代计算生成64×64大小的递归图。从中提取了四个关键的RQA特征:递归率(RR)衡量状态复发概率、确定性(DET)量化系统规律性、熵(ENTR)反映动力学复杂性、层流性(LAM)指示信号稳定程度。最终通过统计量(均值、标准差、偏度和峰度)生成16维特征向量。
梅尔谱图与MFCCs分析
同时,研究还计算了语音信号的梅尔频谱图,将其调整为64×64大小以与RP保持一致。MFCCs则通过计算梅尔频谱图、对数压缩和离散余弦变换(DCT)获得14个系数。这些特征能够模拟人耳听觉特性,对背景噪声不敏感。
多特征融合与分类
如图1所示,RP和梅尔频谱图分别输入CNN网络(包含3个卷积层,滤波器大小5×5),从全局平均池化层和分类层提取24个特征。与14个MFCCs特征和16个RQA统计特征拼接形成54维特征向量,通过Kruskal-Wallis检验(p≤0.1)进行特征选择后,使用线性SVM进行分类。
西班牙数据集结果
如表I所示,该方法在所有语音任务上均表现出色。元音任务中,/u/元音准确率最高达97%(±0.03),五个元音特征融合后准确率高达99%(±0.01)。音节任务中,/pa/音节达到97%(±0.04)的准确率,特征融合后提升至99%(±0.02)。单词和句子任务同样表现优异,特征融合后准确率分别为97%(±0.04)和96%(±0.04)。
希腊数据集验证
在独立希腊数据集上的验证结果(表II)显示,该方法具有良好的泛化能力。元音/a/、单词"ring"和句子"Sakis"的分类准确率分别为73%(±0.27)、78%(±0.19)和82%(±0.16),虽然略低于西班牙数据集,但仍展现了跨语言应用的潜力。
消融实验
图2的消融研究进一步证实了多特征融合的价值。当使用全部54个特征并结合Kruskal-Wallis检验时(红色条),性能最优,凸显了各特征组件的重要性以及特征选择的关键作用。
这项研究的意义不仅在于高精度的分类性能,更在于其方法学的创新。研究团队成功解决了RQA分析长时程语音信号的技术难题,并通过融合非线性动力学特征与频谱特征,全面捕捉了帕金森病语音障碍的多维度特点。与以往主要关注元音分析的研究相比,本研究涵盖了音节、单词和句子等更接近自然语音的任务,提高了临床实用性。
值得注意的是,该方法的计算效率也相当可观,处理整个西班牙数据集仅需67.56分钟,为未来开发实时诊断工具奠定了基础。然而,研究也存在一定局限性,如样本量相对较小,未针对不同疾病严重程度进行分层分析,这些都是未来研究需要完善的方向。
展望未来,这种语音分析方法可与步态、书写等功能评估结合,构建多模态诊断系统;也可用于长期监测疾病进展和治疗反应。随着远程医疗的发展,这种非侵入性、低成本的语音分析工具有望成为帕金森病早期筛查和日常管理的有力手段,特别适用于医疗资源匮乏地区的患者监护。
这项由Anastasia Pentari等人完成的研究,展示了计算语音分析在神经退行性疾病诊断中的巨大潜力,为开发客观、量化的帕金森病生物标志物迈出了重要一步。正如研究者所言,他们的工作为"可靠应用于远程监测和早期筛查的工具"铺平了道路,这将最终使全球数百万帕金森病患者受益。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号