综述:帕金森病的语音分析 —— 系统文献综述

【字体: 时间:2025年04月22日 来源:Artificial Intelligence in Medicine 6.1

编辑推荐:

  本文系统回顾了 2019 - 2023 年利用语音评估诊断和预测帕金森病(PD)的研究。通过检索三个数据库,筛选出 106 项研究。结果显示多数研究聚焦诊断,且多种机器学习技术表现良好。同时探讨了研究的局限性与未来方向。

  

1. 引言


帕金森病(Parkinson’s disease)是一种神经退行性疾病,与黑质中多巴胺能神经元的缺失有关,主要影响患者的运动协调。2019 年,估计有 850 万人患有这种疾病,在男性和老年人群中更为普遍,但年轻群体和女性也可能患病。其诊断主要基于临床症状,但目前对于病因尚未完全明确,可能受遗传、环境污染、特定物质摄入等因素影响。

帕金森病患者会出现运动和非运动症状,约 89% 的患者会出现言语变化,如单调言语、说话犹豫、语速过快、找词困难、言语受损或延长等。

在本系统文献综述之前,已有相关研究对帕金森病患者语音评估进行了探讨,但各有侧重和局限。本综述旨在讨论通过语音评估诊断和预测帕金森病的方法,识别常用数据库、特征及其提取选择方法,以及用于分类语音数据的机器学习技术。

2. 方法


2.1 检索策略


为进行系统文献综述,从多学科数据库中选择符合特定纳入和排除标准的研究。使用了 ScienceDirect、IEEE Xplore 和 ACM Library 数据库,检索时间为 2023 年 12 月,涵盖 2019 - 2023 年的文献,检索关键词为 “(parkinson disease) AND (speech OR voice) AND (assessment OR processing)” ,且本综述遵循 PRISMA 指南。

2.2 研究选择


利用 Rayyan 网络应用程序筛选文章标题和摘要,去除重复文章。设定了研究的排除标准,包括非英文文章、未诊断或预测帕金森病的研究、未包含语音评估的研究、帕金森病患者数量少于 10 人或未包含患者的研究、未使用机器学习工具的研究,以及预处理、特征提取和信号分类技术未提及或信息不足的文章。

对于纳入研究,仅考虑与语音分析和帕金森病相关的信息,并将提取的信息按研究数据、数据(数据库和受试者数量)、算法(预处理、特征提取、特征选择和分类方法)、性能(评估分数)进行组织。

2.3 研究问题


本综述设定了一些研究问题,包括帕金森病语音和言语评估问题如何解决;最常用的特征有哪些;最佳分类方法是什么;该领域的主要局限和未来可能性有哪些。

3. 结果


3.1 数据集


研究发现,UCI 数据存储库中的数据库使用最为频繁,在 106 项研究中占 33.96%(36/106),其中帕金森语音多类型录音数据集、牛津帕金森病检测数据集和帕金森病分类数据集较为突出。PC - GITA 数据库在 21.69%(23/106)的研究中被使用,MDVR - KVL 数据库在 6.60%(7/106)的研究中被使用。

3.2 预处理


数据预处理中,归一化技术应用广泛,31.13%(33/106)的研究采用了该技术。分割和数据增强方法也较常用,分别在 8.49%(9/106)和 7.54%(8/106)的研究中出现。Praat 软件常用于语音分析,在数据预处理和特征提取中均有应用。

3.3 特征提取和特征选择


特征提取技术分为监督式和无监督式。无监督式方法如主成分分析(PCA)在 8.49%(9/106)的文章中被使用。常用的特征提取技术还包括 Mel 频率倒谱系数(MFCCs),至少在 27.36%(29/106)的文章中出现;频谱图在 17.92%(19/106)的研究中被使用;短时傅里叶变换(STFT)在 9.43%(10/106)的研究中被使用;Praat 软件在 6.60%(7/106)的文章中被用于评估语音特征和测量。

35.85% 的研究提及了特征选择步骤,特征选择方法包括过滤法、包装法和嵌入法,三种方法在研究中均有应用。

3.4 分类


数据分类阶段,监督学习技术应用广泛。69.81%(74/106)的研究使用了机器学习分类器,如支持向量机(SVM)、随机森林(RF)、k 近邻(k - NN)、决策树(DT)、线性判别分析(LDA)等;54.71%(58/106)的研究使用了深度学习分类器,如卷积神经网络(CNN)、人工神经网络(ANN)等。研究中还常出现多种算法的组合及性能比较。

3.5 性能指标


评估模型性能时,常用的指标包括准确率、灵敏度、F1 分数、曲线下面积(AUC)、精度和特异性。多数研究使用了这些指标,且约 83.96% 的文章获得了超过 80% 的准确率。

4. 讨论


4.1 语音和言语评估的方法


帕金森病患者语音和言语评估通过分析健康受试者(HC)和帕金森病患者(PD)的语音测量数据进行,目的是诊断(94.34%,100/106)或预测(11.32%,12/106)疾病。在预测方面,研究通常聚焦于预测统一帕金森病评定量表(UPDRS)评分和 Hoehn & Yahr 量表(H&Y)评分。诊断研究则分为特征提取和分类两个方向,分别致力于寻找最佳特征和分类器以提升性能。

4.2 常用特征


在语音源方面,至少 51% 的研究使用了元音,同时也会分析单词、短语、文本、独白和 DDK 练习等。常用的测量特征可分为声学、时频和倒谱域测量三类。声学测量包括抖动、闪烁、基频值和 HNR 等;时频测量中频谱图应用广泛;倒谱域特征中 MFCCs 较为常用。

4.3 最佳分类方法


分析研究中的分类方法发现,机器学习技术相比深度学习技术应用更广泛,在最佳方法中占比超过 66%,其中 RF 和 SVM 表现突出,部分研究使用它们获得了 100% 的准确率。深度学习技术也有出色表现,部分研究使用其达到了 99.7% 甚至 100% 的准确率,表明这些模型在诊断和预测帕金森病方面成功率较高。

4.4 局限性和未来可能性


研究的主要局限在于数据类型和语言方面。大部分数据来自数据库,采集环境受控制,与临床实际情况不同;且多数研究使用英语或西班牙语数据,对其他语言数据的研究有限。未来研究可利用真实数据和多语言数据,以更好地应用于临床诊断和预测帕金森病。

4.5 综述的局限性


本系统文献综述也存在局限性,如仅使用了三个数据库,未涵盖 PubMed 等其他数据库;关键词选择可能限制了研究搜索范围;部分文章因数据和技术细节不足被排除;仅考虑了英文文章。

5. 结论


本系统文献综述总结了当前利用机器学习技术通过语音和言语分析诊断和预测帕金森病的方法。研究发现近年来该领域发展迅速,常用特征集中在时频域、倒谱域和声学特征,一些机器学习和深度学习模型在性能上表现出色。但研究存在数据方面的局限性,未来可改进方法以应用于临床实践,有望实现更早诊断和更可靠的预后,改善患者生活质量。不过本综述仅涵盖特定五年内三个数据库中的英文研究,还有更多研究和方法未被提及。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号