基于可解释人工智能的声学特征解析:多类嗓音障碍鉴别诊断新策略

【字体: 时间:2025年05月26日 来源:Scientific Reports 3.8

编辑推荐:

  本研究针对嗓音障碍临床诊断中侵入性检查的局限性,创新性地采用可解释人工智能(XAI)技术,通过OpenL3网络对Mel Spectrogram进行迁移学习分析,实现了8类嗓音病理(包括健康声带)99.44%的准确率分类。研究首次提出"可分化性"概念,通过Occlusion Sensitivity映射揭示模型决策机制,为远程医疗和非侵入式诊断提供了可靠的技术支持。

  

嗓音作为人类交流的核心载体,其健康状态常因解剖结构异常、功能失调或神经麻痹等因素受损。传统诊断依赖喉镜检查等侵入性手段,不仅给患者带来不适,在疫情等特殊时期更面临诊疗延迟的挑战。尽管声学分析能无创评估嗓音状态,但现有计算机辅助诊断系统存在两大瓶颈:多病理分类精度不足(最高99.4%仅针对6类),以及深度学习模型的"黑箱"特性阻碍临床信任。

卡赫拉曼马拉什苏特库伊玛目大学的研究团队在《Scientific Reports》发表突破性研究,通过融合迁移学习和可解释人工智能(XAI)技术,构建了能同时鉴别8类嗓音状态(7种病理+健康)的诊断系统。该系统以250ms短时音频为输入,在VOICED公开数据集上实现99.44%分类准确率,并首次通过Occlusion Sensitivity映射揭示不同病理的特异性声学特征。

研究采用三大关键技术:1) 基于Hanning窗的FIR滤波器预处理VOICED数据集5s元音/a/录音;2) 将250ms音频片段转化为Mel Spectrogram(模拟人耳听觉的时频表征),通过OpenL3/YAMNET/VGGish网络进行迁移学习;3) 应用Occlusion Sensitivity生成解释性热图,通过2D相关系数(公式3)量化类间"可分化性"。

【分类性能】OpenL3以99.44%准确率显著优于YAMNET(94.36%)和VGGish(95.34%)。混淆矩阵显示,声门闭合不全(Glottic Insufficiency)分类精度最低(98.2%),而声带麻痹(Vocal Fold Paralysis)召回率最低(98.1%)。ROC曲线证实所有病理的AUC值均>0.98,证明模型稳健性。

【特征解析】平均Occlusion Sensitivity映射揭示:1) 时间维度无显著影响,决策依赖0-1.5kHz频段;2) 各类病理具特异性频带:声带结节在750Hz呈现细窄高响应带,声带麻痹在900Hz出现特征峰;3) 健康嗓音主要利用200Hz和750Hz频段。标准偏差分析发现,模型通过"未使用频带"(如声门闭合不全的40Hz空白区)实现阴性判断。

【可分化性】类间2D相关系数显示:声带结节与脱垂症相关性最高(0.9322),差异主要体现在250Hz和430Hz双频带;而健康与运动减退性发声障碍通过750Hz单频带区分。研究提出"可分化性"新概念,指模型通过细微频带强度差异(如700Hz带宽变化)实现病理鉴别。

该研究突破性地将嗓音诊断推进到可解释阶段:1) 临床价值:识别出各类病理的特征频带(如返流性喉炎的2.8kHz),为靶向治疗提供依据;2) 技术革新:仅需180样本/类即可达到99%+精度,较传统方法减少87%训练数据;3) 应用拓展:开发的GUI界面支持远程录音分析,在COVID-19等特殊时期具有重要防疫意义。

讨论部分强调三个前瞻方向:1) 现有数据集未涵盖所有元音发音,未来可扩展/i//u/等多音素分析;2) 识别频带特征可指导新型声学治疗仪开发;3) 该框架可迁移至帕金森等神经性疾病的嗓音筛查。研究证实,250ms短时音频已包含足够病理特征,这为开发实时监测设备奠定基础。

这项工作的核心突破在于将XAI从"事后解释"提升为"特征发现工具",通过声学指纹揭示传统检查难以捕捉的微观病理变化。正如作者Fatma Ozcan指出,该方法不仅缩短诊断周期,更重要的是建立了人机互信的临床决策支持系统(XDSS),为AI在精准医疗中的应用提供了范式参考。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号