基于Transformer模型与语音错误率指标的帕金森病声音分类研究

《Biomedical Signal Processing and Control》:Voice classification in Parkinson’s disease: A deep learning approach using transformers and error rate metrics

【字体: 时间:2025年10月27日 来源:Biomedical Signal Processing and Control 4.9

编辑推荐:

  本研究针对帕金森病(PD)患者语音障碍的早期诊断和持续监测需求,采用Word Error Rate(WER)和Character Error Rate(CER)作为语音清晰度量化指标,结合Vision Transformer(ViT)和Audio Spectrogram Transformer(AST)深度学习模型,开发了一种非侵入性的语音分类方法。研究结果显示,该方法在区分PD患者与健康对照者方面达到73%的准确率,且错误率指标与疾病严重程度呈正相关,为PD的远程评估和病情监测提供了新的技术途径。

  
帕金森病作为一种常见的神经退行性疾病,全球范围内影响着大量老年人群的健康。随着人口老龄化趋势加剧,帕金森病的早期诊断和有效监测变得尤为重要。值得注意的是,高达90%的帕金森病患者会出现不同程度的语音障碍,这些障碍往往在疾病早期就已经显现,严重影响患者的生活质量。
传统的帕金森病诊断主要依赖临床评估,如运动障碍学会统一帕金森病评定量表(MDS-UPDRS),这种方法虽然有效,但存在主观性强、需要专业医疗人员参与、难以实现频繁监测等局限性。特别是在偏远地区或资源有限的医疗环境中,患者往往难以及时获得专业的诊断和随访。
语音障碍作为帕金森病的重要非运动症状,表现为音质、发音和韵律等多个方面的异常。这些异常包括声音颤抖、音量减小、发音不清等特征,为疾病诊断提供了潜在的生物标志物。近年来,随着人工智能技术的发展,基于语音分析的帕金森病辅助诊断方法逐渐受到关注,但如何提高诊断准确性、实现疾病严重程度的客观量化仍是当前研究面临的挑战。
在这项发表于《Biomedical Signal Processing and Control》的研究中,来自意大利都灵理工大学的研究团队开发了一种创新的语音分析方法,结合了自动语音识别技术和先进的深度学习模型,为帕金森病的诊断和监测提供了新的解决方案。
研究团队采用了三种不同的语音数据集(PC-GITA、Bari和Molinette),包含帕金森病患者和健康对照者的语音记录。通过自动语音识别系统Whisper生成语音转录文本,计算词错误率(WER)和字符错误率(CER)作为语音清晰度的量化指标。同时,研究团队训练了两种基于Transformer的深度学习模型——Vision Transformer(ViT)和Audio Spectrogram Transformer(AST),用于区分帕金森病患者和健康对照者。研究采用五折交叉验证评估模型性能,并分析了错误率指标与临床评估分数之间的相关性。
语音识别结果
通过分析三个数据集的语音识别结果,研究发现帕金森病患者的WER和CER显著高于健康对照组。在PC-GITA数据集中,帕金森病患者的平均WER为0.427,显著高于健康对照组的0.262;平均CER为0.172,也明显高于健康对照组的0.080。类似趋势在Bari数据集中同样得到验证,进一步证实了这些指标在区分帕金森病语音障碍方面的有效性。
更重要的是,研究发现了错误率指标与疾病严重程度之间的正相关关系。随着MDS-UPDRS评分的增加,WER和CER值呈现上升趋势。在Molinette数据集中,MDS-UPDRS评分为2的患者其WER和CER显著高于评分为0和1的患者,这种趋势在合并Bari和Molinette数据集的分析中同样得到证实。
分类结果
在分类任务方面,AST并行配置模型表现最佳,在验证集上达到了73%的准确率、75%的精确度、70%的召回率和72%的F1分数。与其他模型配置相比,并行处理策略通过将音频样本分割并独立处理,更好地捕捉了时间变化特征,从而提高了分类性能。
特别值得注意的是,分类模型输出的概率值与疾病严重程度显示出相关性。随着MDS-UPDRS级别的升高,模型将语音样本分类为帕金森病的概率也相应增加。这一发现表明,深度学习模型不仅能够区分患者和健康人,还可能捕捉到与疾病严重程度相关的语音特征模式。
讨论与意义
这项研究的创新之处在于将自动语音识别技术与先进的深度学习模型相结合,为帕金森病的语音分析提供了多维度的评估框架。WER和CER作为语音清晰度的客观指标,能够有效量化帕金森病相关的发音障碍,而Transformer模型则能够从语音信号中提取更深层次的特征模式。
研究结果支持了语音分析作为帕金森病生物标志物的潜力。错误率指标与临床评估分数之间的相关性表明,语音障碍的程度可以反映疾病的进展情况,这为开发非侵入性的疾病监测工具提供了理论依据。
在实际应用方面,该方法特别适合远程医疗场景。通过智能手机等移动设备采集语音样本,结合云端分析处理,可以实现对帕金森病患者的长期监测,及时发现病情变化,为调整治疗方案提供参考。这种方法降低了专业医疗资源的需求,提高了医疗服务的可及性,特别有利于偏远地区或行动不便的患者。
然而,研究也存在一些局限性。数据集规模相对有限,特别是具有详细MDS-UPDRS标注的样本数量不足,这可能影响统计分析的效力。此外,模型存在一定的过拟合现象,需要在未来研究中通过扩大数据集和优化模型结构来改进。
未来展望
未来的研究方向包括扩大数据集的规模和多样性,提高模型的泛化能力;结合可解释人工智能(XAI)技术,增强模型决策的透明度;优化移动平台集成,实现实时监测功能。这些改进将推动语音分析技术在帕金森病临床管理中的实际应用。
这项研究为帕金森病的诊断和监测提供了新的技术路径,展示了人工智能技术在神经退行性疾病管理中的应用前景。随着技术的不断完善和临床验证的深入,基于语音分析的辅助诊断方法有望成为帕金森病综合管理方案的重要组成部分,为改善患者生活质量带来新的希望。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号