基于深度学习的音频增强技术提升呼吸音分类系统的鲁棒性与临床应用价值

【字体: 时间:2025年06月06日 来源:JMIR AI

编辑推荐:

  为解决呼吸音分类系统在真实噪声环境下的性能下降问题,台湾大学医院新竹分院团队开展了一项结合深度学习音频增强技术的研究。通过对比4种增强模型(Wave-U-Net/PHASEN/MANNER/CMGAN)在ICBHI和FABS数据集的表现,发现CMGAN预处理使ICBHI评分提升21.88%(P<0.001),医生诊断敏感性提高11.61%。该研究为临床决策支持系统提供了可解释的噪声抑制方案。

  

听诊作为肺部疾病诊断的重要手段,其核心在于识别异常呼吸音如喘息音(wheeze)和爆裂音(crackle)。然而现实临床环境中,电子听诊器常受到摩擦噪声、患者对话等干扰,导致自动分类系统性能骤降。更棘手的是,传统噪声注入数据增强方法虽能提升模型鲁棒性,却无法为医生提供可听诊的净化音频,这种"黑箱"特性严重阻碍临床接受度。台湾大学医院新竹分院的研究团队在《JMIR AI》发表的研究,创新性地将语音增强技术迁移至呼吸音领域,通过构建包含临床真实噪声的增强系统,同时解决了算法性能与医生信任度两大难题。

研究采用多阶段技术路线:首先使用CNN14预训练模型过滤ICBHI和FABS数据集中含非呼吸音污染的样本;随后比较4种增强模型(时域Wave-U-Net/MANNER,时频域PHASEN/CMGAN)在15-0dB信噪比(SNR)下的表现;最终通过7名资深医师盲法评估增强音频的临床效用。关键创新在于引入语音领域的卷积增强变换器(Conformer)结构和MetricGAN判别器,首次实现呼吸音特征与噪声的频谱分离。

在模型性能方面,时频域方法展现出显著优势。CMGAN在ICBHI数据集上取得67.28%的ICBHI评分,较噪声注入基线提升2.15%(P<0.001),其增强音频在医生验证中使诊断敏感性从16.77%提升至28.38%。频谱分析显示CMGAN能更好保留喘息音的高频成分(400-2000Hz),而Wave-U-Net则过度抑制有效频段。值得注意的是,语音质量指标与分类性能呈现特异性相关:背景噪声干扰度评分(CBAK)和分段信噪比(SSNR)与ICBHI评分的相关系数达0.9以上,而传统语音可懂度指标(STOI)相关性仅为0.36。

医师双盲试验揭示了更深层价值。在SNR=7.5dB的摩擦噪声环境下,使用增强音频的医师诊断信心评分(1-5分制)从2.32升至2.65,高置信度诊断(评分≥4)比例增加14.22%。特别在沉默性喘息(silent wheeze)这类易被AI误判的病例中,增强系统通过保留低频谐波成分,使医生识别准确率提升23%。

讨论部分指出,该研究首次证实语音增强技术可迁移至呼吸音分析领域。CMGAN的2-stage Conformer结构通过多头注意力机制实现长程依赖建模,其1.8M参数量仅为MANNER的7.5%,但推理速度达26ms/秒,满足实时听诊需求。局限性在于当前评价体系仍依赖语音指标,未来需开发呼吸音特异性质量评估标准。

这项研究为AI辅助听诊系统提供了新范式:前端增强模块既提升下游分类性能,又生成医生可验证的净化音频,在算法性能与临床可解释性间取得平衡。团队计划下一步在急诊科部署该系统,通过多中心临床试验验证其泛化能力,为医疗器械认证奠定基础。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号