基于VGGish迁移学习的智能手机咳嗽音分类系统：助力呼吸系统疾病早期诊断

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月02日 来源：BMC Medical Informatics and Decision Making 3.3

编辑推荐：

　　本研究针对呼吸系统疾病早期诊断难题，开发了基于VGGish迁移学习的深度学习模型，通过智能手机采集的咳嗽音实现异常咳嗽自动分类。研究人员采用7名医学专家标注的临床数据集，构建咳嗽检测（准确率0.9883）与分类模型（最高准确率0.8662），结合Grad-CAM可视化关键声学特征，为医疗资源匮乏地区提供便捷筛查工具，相关成果发表于《BMC Medical Informatics and Decision Making》。

呼吸系统疾病是全球范围内导致高死亡率的主要健康威胁之一，咳嗽作为这类疾病最常见的症状，其声学特征蕴含着重要的生物标志物信息。然而，传统诊断依赖专业医师的听诊经验，非专业人士难以辨别异常咳嗽，且医疗资源分布不均导致早期筛查困难。更棘手的是，不同呼吸系统疾病（如哮喘、慢性阻塞性肺病(COPD)和肺炎）的咳嗽声学特征存在交叉重叠，使得基于声音的自动化诊断面临巨大挑战。

为解决这一难题，来自韩国江陵峨山医院与韩国中央大学医院的研究团队创新性地将深度学习技术应用于咳嗽音分析领域。他们开发了基于VGGish迁移学习的双阶段模型系统，通过智能手机采集的咳嗽录音即可实现异常咳嗽的自动识别。这项突破性研究发表在《BMC Medical Informatics and Decision Making》期刊，为呼吸系统疾病的早期筛查提供了便捷、低成本的解决方案。

研究团队采用的关键技术方法包括：1）通过智能手机应用采集739名患者（最终筛选476名）的咳嗽音频，由7名临床专家进行多轮标注；2）将1秒音频片段转换为Log-Mel频谱图（64 Mel频带，16kHz采样率）作为输入；3）构建VGGish+CNN的双网络架构，分别用于咳嗽事件检测（4层CNN）和异常分类（8层CNN）；4）采用5折交叉验证评估性能，结合AUROC/AUPRC和Grad-CAM进行多维分析。

咳嗽检测模型结果
检测模型在区分咳嗽与其他环境声音时表现出色，达到0.9883±0.0027的准确率和0.9966±0.0022的精确度。这种高性能源于模型能有效识别咳嗽特有的声谱特征，特别是与静音片段（几乎无频谱能量）和语音（较宽频带分布）的显著差异。

咳嗽分类模型结果
比较三个不同专家标注数据集发现：

Dataset 1（4名专家）：虽取得0.8417准确率，但因异常样本过多（8,580 vs 4,390正常）导致特异性仅0.7725
Dataset 3（7名专家）：表现最优且平衡，准确率0.8662，AUROC达0.9348，特异性提升至0.8535
模型在VGG+CNN架构下显著优于对比模型（VGG+LSTM和ResNet50），证实迁移学习在有限医疗数据中的优势。

Grad-CAM可视化分析
特征热图显示：

真阳性（TP）样本主要激活中频带（1-2kHz），对应哮喘的哮鸣音和COPD的爆裂音特征
真阴性（TN）样本则呈现更分散的频率响应，反映健康咳嗽的宽频特性

这项研究通过严谨的临床数据采集和创新的算法设计，证实了智能手机咳嗽音分析在呼吸系统疾病筛查中的可行性。其重要意义体现在三个方面：首先，为医疗资源匮乏地区提供了可及的初级筛查工具；其次，减轻临床医师的工作负担，7名专家协同标注的模式提升了数据可靠性；最后，Grad-CAM的可解释性分析为咳嗽声学特征研究提供了新视角。未来通过扩大跨国多中心数据采集、结合症状特异性分类模型开发，有望进一步推动该技术向精准医疗方向发展。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号