基于CNN-RNN融合模型的肺音分析实现呼吸系统疾病早期诊断
《Scientific Reports》:Deep Learning-Driven Early Diagnosis of Respiratory Diseases using CNN-RNN Fusion on Lung Sound Data
【字体:
大
中
小
】
时间:2025年11月25日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对传统肺音分析主观性强、诊断一致性差的问题,开展基于卷积神经网络(CNN)与循环神经网络(RNN)融合的深度学习模型研究。通过处理ICBHI和Coswara数据集中的肺音信号,结合梅尔频谱图特征提取与时空依赖性建模,实现了肺炎、哮喘、慢性阻塞性肺疾病(COPD)及COVID-19的高精度分类(最高准确率达94.0%)。该模型通过加权映射策略(如将爆裂音关联肺炎、哮鸣音关联哮喘/COPD)提升诊断特异性,并集成Grad-CAM提供可解释性可视化,为智能听诊器及远程医疗应用奠定技术基础。
呼吸系统疾病是全球公共卫生的重大挑战,每年导致数百万人死亡。传统诊断依赖医生通过听诊器分析肺音(如哮鸣音、爆裂音),但存在主观性强、诊断一致性低的问题,易导致误诊或治疗延迟。随着人工智能技术的发展,深度学习为肺音分析提供了自动化、高精度的新思路。然而,现有模型多局限于二分类或缺乏临床可解释性,且难以同时捕捉肺音的时空特征。为此,Thulasi Bikku等研究者在《Scientific Reports》发表研究,提出一种融合卷积神经网络(CNN)和循环神经网络(RNN)的深度学习模型,旨在实现多类呼吸系统疾病的早期精准诊断。
研究采用CNN提取梅尔频谱图中的空间特征,并通过RNN(具体为长短期记忆网络LSTM)建模时间序列依赖关系。关键技术方法包括:
- 1.使用ICBHI(含5000余条肺音记录)和Coswara(含COVID-19相关咳嗽与呼吸音)公共数据集;
- 2.数据预处理采用100 Hz高通滤波、2.5秒帧分割与梅尔频谱图转换;
- 3.通过音高偏移、时间拉伸等数据增强技术解决类别不平衡问题;
- 4.模型训练使用Adam优化器(学习率0.001)与交叉熵损失函数,并集成Grad-CAM生成可解释性热力图。
模型架构设计
研究提出一种混合CNN-RNN架构,其中CNN部分包含3个卷积层(3×3卷积核)、3个最大池化层和2个全连接层,用于从梅尔频谱图中提取频域特征;RNN部分包含2个LSTM层,用于学习肺音信号的时序模式。该设计通过加权映射策略(如将爆裂音权重关联肺炎,哮鸣音权重关联哮喘/COPD)增强疾病特异性识别能力。
性能评估结果
在ICBHI数据集上,模型对健康人群、肺炎、哮喘和COPD的分类准确率分别为93.3%、93.8%、91.7%和94.0%,F1分数均超过0.91。在Coswara数据集中,对COVID-19的检测准确率达92.31%。相比支持向量机(SVM)和随机森林等传统算法,该模型在精度、召回率等指标上均显著提升。
可解释性分析
通过Grad-CAM可视化技术,模型能够突出显示梅尔频谱图中与疾病相关的关键区域(如哮喘患者的持续性高频哮鸣音区域),为医生提供决策依据,增强临床信任度。
讨论与结论
该研究通过融合CNN与RNN架构,有效解决了肺音分析中时空特征提取的难题,并结合多源数据集与可解释性技术,提升了模型的泛化能力和临床适用性。未来工作可扩展至更多呼吸道疾病类型,并探索在可穿戴设备中的实时监测应用。该成果为呼吸系统疾病的早期筛查提供了一种自动化、高可靠性的AI驱动方案,对改善全球呼吸道健康管理具有重要意义。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号