编辑推荐:
在语音障碍分类领域,多类分类精度低等问题突出。研究人员开展了利用预训练模型和集成分类器对语音障碍进行二分类和多类分类的研究。结果显示该方法优于传统模型,提升了分类精度,为临床评估提供了有力支持。
在医学领域,语音障碍是一个不容忽视的问题。想象一下,一个原本热爱歌唱的人,因为患上了语音障碍,美妙的歌声不再,生活也因此变得黯淡无光。语音障碍不仅影响人们的正常交流,还会对心理健康造成严重的负面影响。从专业角度来看,语音是人类通过肺部、喉部、声道和声带等器官协同工作产生的声音,用于传递各种信息。而当语音产生系统的任何一个环节出现问题,比如声带病变、声道结构异常等,都可能引发语音障碍。这些障碍的症状多样,从轻微的声音嘶哑,到严重的完全失声,极大地降低了患者的生活质量。
目前,语音障碍的分类面临诸多挑战。一方面,现有的研究大多集中在二分类问题上,比如区分健康和病理语音,对于多类分类的研究相对较少,且多类分类的精度普遍较低。另一方面,数据的不平衡也是一个难题,某些语音障碍的病例数量较少,这使得机器学习模型在训练时容易出现偏差,难以准确识别这些少数类别的语音障碍。此外,性别差异在语音障碍分类中的影响也尚未得到充分的研究。
为了解决这些问题,来自拉德堡德大学(Radboud University)和中东技术大学北塞浦路斯校区(Middle East Technical University, Northern Cyprus Campus)的研究人员 Mehtab Ur Rahman 和 Cem Direkoglu 开展了一项极具意义的研究。他们提出了一种新颖的混合方法,旨在提高语音障碍的分类性能,尤其是在多类分类方面达到更高的精度。这项研究成果发表在《BMC Medical Informatics and Decision Making》上,为语音障碍的研究领域带来了新的突破。
研究人员在这项研究中主要运用了以下关键技术方法:首先,他们从公开的 Saarbruecken 语音数据库(SVD)中选取了包含健康、功能性发声障碍(hyperfunctional dysphonia)和声带麻痹(vocal fold paresis)三类语音数据的子集。接着,在特征提取阶段,他们将语音数据转换为对数梅尔频谱图,利用预训练的 VGGish 模型从中提取 128 维的高级特征嵌入。最后,使用支持向量机(SVM)、逻辑回归(LR)、多层感知器(MLP)以及集成分类器(EC)对这些特征进行分类,并通过 5 折交叉验证评估模型性能。
下面来看具体的研究结果:
- 健康与患病语音分类:对于男性说话者,VGGish - SVM 的准确率最高,达到 82.45%;对于女性说话者,VGGish - EC 的准确率最高,为 71.54%。在男女混合样本中,VGGish - EC 的总体准确率和 F1 得分最高,分别为 73.84% 和 73.92%。这表明不同的分类器在不同性别的样本上表现出不同的优势,VGGish - SVM 在男性样本中表现出色,而 VGGish - EC 在女性样本中更具优势。
- 功能性发声障碍与声带麻痹分类:在男性说话者中,VGGish - SVM 的准确率最高,为 75.45%;女性说话者中,VGGish - EC 的准确率最高,为 68.42%。在混合样本中,VGGish - SVM 的总体准确率和 F1 得分最高,分别为 68.80% 和 67.64%。这进一步验证了不同分类器在不同性别的语音分类任务中的差异。
- 多类分类:在多类分类任务中,VGGish - SVM 在准确率方面表现最佳,男性说话者的准确率为 77.81%,女性为 63.11%,混合样本为 70.53%。虽然 VGGish - EC 的总体准确率低于 VGGish - SVM,但在处理少数类别的样本时表现更优,这对于数据不平衡的语音障碍分类任务至关重要。
研究结论和讨论部分表明,该研究提出的语音障碍分类系统相比现有方法具有明显优势。利用预训练模型提取特征的方法优于基于梅尔频率倒谱系数(MFCC)的系统。研究还发现男性说话者的分类准确率普遍高于女性说话者,这一现象为后续研究提供了新的方向。此外,尽管研究取得了不错的成果,但仍存在一些需要改进的地方,比如模型在处理少数类样本时的准确率还有提升空间,未来需要进一步解决数据不平衡的问题。同时,研究人员计划在未来的工作中引入可解释性技术,如 LIME、SHAP 和 GradCAM,以更好地理解模型的决策过程,增强模型的可信度,促进其在临床诊断中的应用。并且,优化模型以实现低延迟推理,在临床或远程医疗环境中对其性能进行验证,也是未来研究的重要方向。总之,这项研究为语音障碍的分类提供了新的思路和方法,为开发更精准的自动化诊断工具奠定了坚实的基础,有望在未来的临床实践中发挥重要作用,帮助更多语音障碍患者得到及时、准确的诊断和治疗。