《Frontiers in Digital Health》:Voice disorders classification using machine learning: a scoping review
编辑推荐:
摘要
目的:本综述旨在识别机器学习(ML)在多类嗓音障碍分类中临床应用的关键障碍。
设计:范围综述。
方法:研究人员对2013年至2025年5月期间在七个临床和工程数据库中发表的研究进行了全面的范围综述。研究人员检查了应用ML技术对嗓音障碍进行分类的文章,排除
摘要
目的:本综述旨在识别机器学习(ML)在多类嗓音障碍分类中临床应用的关键障碍。
设计:范围综述。
方法:研究人员对2013年至2025年5月期间在七个临床和工程数据库中发表的研究进行了全面的范围综述。研究人员检查了应用ML技术对嗓音障碍进行分类的文章,排除了仅限于二分类(例如,健康与病理)的出版物。从纳入的文章中提取数据,以分析特定嗓音障碍分类类别、数据库选择、输入数据属性、发声任务、诊断标签以及所应用的ML分类技术中的模式。
结果:总共筛选了10,401篇涉及嗓音障碍分类的文章,其中80篇使用了ML技术进行多类分类。结果揭示了在数据库选择、嗓音障碍诊断标签、输入数据的数量和类型(例如,发声任务和人口统计学问卷)以及分类技术方面存在显著变异。这些不一致性阻碍了稳健的比较,从而阻碍了识别通常能够成熟到临床应用的先进解决方案。
讨论:分类任务的变异使得难以跨研究比较结果。在类别不平衡、样本量以及研究的类别总数方面发现的不一致性意味着没有基线来比较和探索各种分类技术。最后,测试方法的变异,例如使用不同的测试集类型和大小或使用交叉验证,限制了文章之间的比较。
结论:本综述发现,与嗓音障碍分类相关的诊断标签、每个选定标签的数据可用性以及测试方法存在显著变异。这种变异限制了可比性,并削弱了ML模型的泛化能力。从选择哪些障碍应该使用ML系统进行分类,到构建测试集和测量性能,整个自动化分类流水线缺乏共识,这可能是临床应用的关键障碍。必须解决这些障碍,以实现使用语音作为其他系统性疾病的生物标志物的潜力。
1 Introduction
嗓音障碍分类是语音人工智能(Voice AI)领域发展中的关键早期阶段,机器学习(ML)作为一种非侵入性客观方法,能够提取语音特征并区分正常与障碍语音。尽管过去十年研究数量显著增长,但尚无研究成功弥合实验研究与临床应用之间的鸿沟。Vox4Health项目在2018年进入临床试验后未能转化为可及的临床产品,其失败原因可能涉及临床适用性不足、ML结果不一致或实施挑战。耳鼻喉科专家(ENT)和言语语言病理学家(SLP)使用多种不同的诊断分类框架,这些框架在结构和依据上存在差异,导致领域内术语和分类共识缺乏。现有研究多集中于二分类(如健康与障碍),但临床需要能够处理多类分类的ML工具,以准确识别特定亚型病理并分流患者。本综述旨在识别多类嗓音障碍分类文献中的关键挑战和方法问题,重点关注可能影响ML系统临床实施的效能因素。
2 Methods
2.1 Protocol:本综述方案于2024年2月24日发表在BMJ Open上。
2.2 Data sources:检索数据库包括MEDLINE、Embase、Scopus、CINAHL、Compendex、Web of Science和IEEE Xplore,涵盖医学与工程学科。
2.3 Search strategy:搜索策略包含六个搜索领域(嗓音障碍、器质性嗓音障碍、肌紧张性发声障碍、功能性嗓音障碍、工程挑战、工程技术),经悉尼大学图书馆员协助完善,并针对不同数据库语法调整。检索时间范围为2013年至2025年5月19日,最终搜索于2025年5月19日完成。
2.4 Article selection process:使用Covidence文献管理工具进行去重和标题/摘要筛选。纳入标准为同行评审期刊和会议论文,涉及ML系统对嗓音障碍的诊断分类,包含有和无嗓音障碍的个体,发表语言为英文,时间在2013年1月1日至2025年5月19日。排除标准包括仅视觉检查、仅二分类(如健康与病理、一种障碍与另一种等)、仅关注儿童障碍检测、仅应用开发、非英文、以及社论或进行中研究。标题/摘要筛选由两位评审者进行,首位作者筛选全部文章,其他评审者分担任务,排除不包含ML技术的论文。全文筛选由一位工程专业评审者进行,排除原因与其他评审者讨论,并随机抽取20%排除文章核对。数据提取使用Microsoft Excel工具,由两位评审者独立提取数据库、参与者人口统计学、诊断方法、分类标签、模型细节、训练/测试分割、评估指标及跨研究比较等信息。分析结果通过多个Excel工作表组织,并使用Python脚本研究分类标签关系。
3 Results
最终检索获得24,696篇结果,去重后10,401篇进入标题/摘要筛选,经八位评审者(包括三位工程师、一位耳鼻喉科医生和四位言语语言病理学家)筛选后,173篇进入全文审查,排除62篇(其中60篇为二分类),最终80篇纳入数据提取和分析。
3.1 Databases:80篇文章共使用了15个公共数据库和23个私有数据库。多数文章(n=68)使用单个数据库,其余使用2至4个数据库。Saarbruecken语音数据库(SVD)使用次数最多(28篇),其次为私有数据库(23篇)、MEEI(17篇)和FEMH 2018(9篇)。两篇文章未指明所用数据库。
3.2 Classification labels:共识别出73种不同分类标签,其中63篇文章包含对照组,17篇无对照组。多数文章进行4类(35篇)或3类(30篇)分类,仅14篇比较超过4类。分类标签组合因数据可用性而异,例如4类文章中常见组合包括Neoplasm、Normal、Phonotrauma、Vocal Palsy。没有研究使用已发表的诊断分类框架进行标签标注,仅一篇文章报告了基于共识的方法,且仅用于严重程度而非诊断。
3.3 Heterogeneity and availability of data:对前50篇文章分析显示,不同诊断标签的样本数量差异极大,正常样本普遍多于病理样本。45篇文章(58.1%)未提供人口统计学信息。数据不平衡问题显著:41篇文章(50%)存在主要不平衡,即样本最多的标签与最少的标签数量差超过20%。16篇文章通过减少大类样本、创建合成数据或过采样小类来平衡数据。跨文章比较时,相同标签的样本分布可能反转。
3.4 Classification pipeline
3.4.1 Vocal tasks and input data:最常用的发声任务是元音/a/,其次是多语句段落。少数研究纳入非发声输入如电声门图(EGG)或人口统计学问卷。53篇文章仅使用单一种类输入数据,11篇使用两种,3篇使用三种。7篇文章通过去噪、语音活动检测(VAD)或手动噪声去除等方式处理录音条件。
3.4.2 Classification features:最常用的特征是梅尔频率倒谱系数(MFCC)(43篇),其次是语音质量特征(19篇)。其他特征包括原始音频、神经网络(NN)特征、梅尔频谱图、小波变换、声门信号、基频(F0)、谱特征等。仅8篇研究探索了NN特征或小波技术,3篇使用了人口统计学数据。
3.4.3 Classification systems:分类系统分为14类,支持向量机(SVM)使用最多,其次是深度神经网络(DNN)和人工神经网络(ANN)。25篇文章在分类前应用降维进行特征选择,4篇使用集成模型,9篇应用迁移学习或自监督预训练(如Whisper、wav2vec),几乎全部发表于2021年后。没有文章检验模型可解释性。
3.4.4 Training/testing strategy:52篇文章使用交叉验证(4折至10折及留一法),25篇使用部分数据测试,3篇未说明分割方法。仅一篇文章进行跨数据库测试。测试集平均约100个样本,47篇文章涉及四类或更多分类,导致每类平均25个或更少样本,引发统计稳健性担忧。
3.5 Metrics:多数文章报告准确率(加权、总计或平衡格式),但部分优先使用未加权平均召回率(UAR)、真阳性率(TPR)或假阳性率(FPR)。包含至少五篇文章使用的诊断标签中,报告准确率范围为39%至99%,极端变异反映数据组成、特征选择及建模选择的差异,研究间直接比较不切实际。
4 Discussion
4.1 Data collection
4.1.1 Diagnostic classification framework:现有研究缺乏对诊断分类框架的一致报告,仅一篇文章引用了分类框架。临床框架是分层的且基于病因或症状,而ML分类列表是扁平的且基于数据库可用标签。这种不匹配阻碍了临床转化,建议未来研究明确报告分类框架并说明模型旨在支持的临床决策点。
4.1.2 Vocal tasks:多数研究依赖元音/a/,而连接语音可能提供更好的分类效果。建议结合连接语音任务,并使用临床实践中的标准阅读段落(如Rainbow Passage)。
4.1.3 Modern architectures and foundation models:SVM结合MFCC仍占主导,但少量近期文章开始应用迁移学习和预训练表示模型(如Whisper编码器、Vision Transformer),受限于每类约25个样本,从头训练Transformer不可行。
4.1.4 Feature choice and model interpretability:MFCC设计用于语音识别,丢弃了与喉部病理直接相关的源级信息(如基频微扰(jitter)、振幅微扰(shimmer)、声门不规则性)。没有文章报告特征归因或显著性分析,建议未来工作包括基础可解释性分析。
4.2 Testing
4.2.1 Evaluation metrics:多数研究使用不同评估指标,建议多类分类中采用平衡准确率(平均召回率),仅两篇文章使用了该指标。
4.2.2 Train/test data separation:多数研究未明确说明训练/测试集分离方式,尤其在使用交叉验证时,可能因未重新初始化模型导致信息泄露。仅少数文章确保训练和测试集说话人不重叠。
4.2.3 Class imbalance handling:41篇文章存在主要不平衡,采用的平衡策略包括随机欠采样、过采样、SMOTE及类别加权损失函数。建议重平衡仅应用于训练分区,并报告每类召回率。
4.2.4 Validation strategies:小数据集上交叉验证可能高估性能,建议使用嵌套交叉验证,并在有多个临床站点或数据库时增加保留集评估域外性能。
4.2.5 Cross-database testing:仅一篇文章报告跨数据库测试结果,这是多类分类中的罕见做法。建议在可能的情况下映射共享宏观类别,并至少报告跨数据库的二分类性能。
4.3 Binary detection vs. multi-class classification:尽管多类分类兴趣增长,多数研究仍聚焦二分类。建议研究人员优先考虑多类分类以确保临床相关性。
4.4 Implications:多类分类研究内部存在高度不一致,无法跨研究比较并得出有意义的结论。基于文献分析和最佳实践,提出了一系列指南和建议。
4.5 Limitations and future research:本综述未提供当前工程实践的全面概述,也未作为基线模型指南。排除了二分类研究可能遗漏有前景的工程实践。建议临床研究使用德尔菲法开发基于症状的分类系统,工程研究应探索多种诊断框架并跨数据库验证模型。
5 Conclusions
本综述表明,ML在多类嗓音障碍分类和区分中的研究仍主要局限于实验室,难以转化为临床实践。既往研究在诊断标签、数据可用性和测试方法上存在显著变异,缺乏标准化阻碍了有意义的比较并限制了模型泛化。从标签选择到测试集构建和性能指标,整个分类方法缺乏共识,成为临床采纳的主要障碍。未来研究应致力于实现诊断分类共识,在缺乏共识时跨多个框架测试可增强结果可比性和临床适用性。