基于注意力机制的双流特征融合网络(ADFF-Net)在呼吸音分类中的创新与应用

《Technologies》:ADFF-Net: An Attention-Based Dual-Stream Feature Fusion Network for Respiratory Sound Classification

【字体: 时间:2025年12月27日 来源:Technologies 3.6

编辑推荐:

  本综述系统介绍了ADFF-Net(一种基于注意力的双流特征融合网络)在呼吸音分类(RSC)中的创新。该网络通过融合Mel滤波器组(Mel-FBank)和Mel频谱图特征,结合注意力机制与跳跃连接(SC),有效提升了多尺度时频表征能力。在ICBHI2017数据库上的实验表明,ADFF-Net在四分类任务中实现了64.95%的整体准确率与62.14%的调和分数(HS),证实了其在特征融合与异常呼吸事件检测方面的潜力,为呼吸系统疾病的智能辅助诊断提供了新思路。

  

引言

呼吸系统疾病是全球主要的健康威胁之一,据世界卫生组织统计,结核病和下呼吸道感染分别位列全球死亡原因的第二和第三位。超过十亿人患有急性或慢性呼吸系统疾病,给医疗系统带来沉重负担并严重影响患者生活质量。呼吸音作为反映肺部健康状况的重要指标,能够为非侵入性、实时评估肺部状态提供关键信息,在慢性阻塞性肺疾病(COPD)、哮喘和肺炎等疾病的早期检测与辅助诊断中发挥着至关重要的作用。
传统的听诊是肺部评估的基石,但该方法受限于临床医生的经验、感知敏锐度和主观判断,导致诊断准确性在不同从业者之间存在显著差异。近年来,电子听诊器技术的发展使得高质量肺音记录成为可能,为肺部听诊的自动化分析创造了新的机遇。2017年国际生物医学与健康信息学大会(ICBHI)基于ICBHI2017呼吸音数据库发起了科学挑战。该数据库包含由临床专家标注的呼吸周期,标签包括 crackles(爆裂音)、wheezes(哮鸣音)、两者兼有(both)或正常呼吸音。与在线收集的众包数据集不同,ICBHI2017数据库在临床环境下由专业团队监督整理,确保了更高的标注可靠性和临床相关性,已成为构建和评估呼吸音分类(RSC)算法的基准数据集。
尽管基于卷积神经网络(CNN)的研究在异常呼吸音分类方面取得了显著进展,但当前方法仍面临特征表示欠佳和模型表达能力有限等挑战。特别是,现有的特征融合策略多依赖于简单拼接,未能充分建模不同特征输入之间的语义互补性或交互动态,限制了其在捕捉多样化声学模式方面的有效性。

相关研究进展

呼吸音的二维(2D)时频表示被广泛采用,例如Mel滤波器组(Mel-FBank)、Mel频谱图和梅尔频率倒谱系数(MFCC)特征,这些表示能够同时捕捉时间动态和频谱特征,并便于适配为2D图像输入设计的深度学习模型。基于Audio Spectrogram Transformer(AST)的方法因其能够通过多头自注意力机制建模长程时间依赖和全局声学上下文而成为非平稳声音分析的主流方法。例如,有研究通过设计同时处理频谱图和log Mel频谱图的双输入变体来增强AST对背景噪声的鲁棒性;另有工作引入Audio Spectrogram Vision Transformer,将Mel频谱图分割为重叠块并应用多层自注意力以捕获全局声学特征模式。
多流特征融合策略通过结合互补的声学线索(如频谱结构、时间动态和音调特征)来提升模型判别力。双流特征融合通过结合互补表示增强声学可分离性,例如将MFCC和Mel频谱图结合到残差注意力增强的并行编码器中,或在混合频谱图中融合Mel频谱图和常数Q变换(CQT)频谱图,并通过频率掩蔽和时间分组进行处理。多流特征融合则通过利用多维信息来提升性能,例如整合Mel频谱图、MFCC和CQT以克服频率分辨率的限制,或组织MFCC、Mel频谱图和色谱图形成3D表示,并设计轻量级网络以平衡模型紧凑性和性能。
然而,现有融合策略多依赖于异构特征输入,缺乏统一机制来有效利用互补优势。Mel-FBank和Mel频谱图特征捕捉了呼吸声学的不同但互补的方面:Mel-FBank特征保留原始频谱能量,对检测低振幅crackles至关重要;而对数尺度的Mel频谱图特征则强调与wheezes特征相关的感知音调变化。若无适当融合策略,这些特征可能产生冗余信息或丢失重要判别线索。

材料与方法

本研究使用的ICBHI2017数据库包含6898个呼吸周期,总时长约5.5小时,被官方划分为训练集(占样本60%)和测试集。每个呼吸周期被标注为“正常”、“crackle”、“wheeze”或“both”四类之一。训练集包含2063个正常周期、1215个crackle周期、501个wheeze周期和363个both周期;测试集包含1579个正常周期、649个crackle周期、385个wheeze周期和143个both周期。为确保无数据泄漏,同一患者的呼吸周期被 exclusively 分配到训练集或测试集。
在特征表示方面,研究提取了三种核心Mel尺度声学特征:Mel-FBank、Mel频谱图和MFCC。特征提取过程包括信号预处理、分帧加窗、短时傅里叶变换(STFT)计算和功率谱计算。Mel-FBank特征通过将Mel尺度滤波器组应用于功率谱得到;Mel频谱图特征通过对Mel-FBank能量取对数获得;MFCC特征则通过对数Mel频谱应用离散余弦变换(DCT)生成,提供频谱包络的紧凑表示。
提出的ADFF-Net框架整合了ADFF模块、预训练AST和跳跃连接(SC)。具体而言,ADFF模块设计用于融合双代表性特征以增强输入数据的表达能力,AST则负责呼吸信号的最终分类。该框架的技术新颖性主要在于ADFF模块,它引入了基于注意力的机制对互补声学特征进行加权和整合。该模块能够根据输入上下文动态调整每个表示的重要性,使网络能够逐样本自适应地强调原始频谱能量或对数感知线索。此外,通过融入跳跃连接结构来保留低层特征信息并促进训练期间的稳定梯度流。这些架构设计共同增强了模型捕捉呼吸音中全局和局部模式的能力。
ADFF模块的工作流程包括:将不同特征类型(如Mel-FBank和Mel频谱图特征)提取并重塑为适合注意力权重计算的形状;通过计算查询(Q)和键(K)向量之间的相似性得到注意力权重矩阵;使用Softmax函数沿第二维度归一化注意力权重以确保数值稳定性;将归一化后的注意力矩阵与重塑后的Mel-FBank特征相乘,产生融合特征张量;最后将融合张量重塑回原始维度以保持与网络后续层的兼容性。跳跃连接的加入允许原始Mel-FBank特征通过逐点恒等捷径绕过注意力加权和融合步骤,确保细粒度频谱细节无损地传递到AST骨干网络。
实验设计包括统一的呼吸信号预处理流程,将所有呼吸周期段重采样至16 kHz,并通过截断或填充将每个记录标准化为固定长度8秒(约798帧)。同时,应用线性淡入淡出技术来抑制由突然截断或重复引起的边界伪影。研究评估了三种特征(Mel-FBank、Mel频谱图和MFCC)的表征性能,并比较了不同的特征融合策略,包括两种基于拼接的融合方法(Concat-AST和AST-Concat)、基于注意力机制的融合(不含SC的ADFF-Net变体)和完整的ADFF-Net。

结果分析

特征表征能力评估结果显示,当使用单一特征时,MFCC产生最高的特异性(SPE)但最低的敏感性(SEN)和调和分数(HS),其SEN值低至9.43%。相比之下,Mel-FBank特征实现了最高的SEN和HS值,但SPE最低。当结合两种特征类型时,Mel-FBank和Mel频谱图特征的组合在SPE、SEN和HS上均产生最高值,表明该融合提供了最具判别力的表征。此外,结合这两种特征在SEN和SPE指标间实现了更好的平衡,SEN值显著提高。
不同特征融合策略的性能比较表明,ADFF-Net在四种特征融合策略中所有评估指标上均取得最佳整体性能。Concat-AST产生最低的SPE和HS值,尽管其SEN略高于AST-Concat。AST-Concat显示出较高的SPE但遭受最低的SEN,限制了其在正确识别阳性病例(即高敏感性)至关重要的临床场景中的适用性。不含SC的ADFF-Net变体虽然SPE低于AST-Concat,但实现了更高的SEN(42.06%)和最高的HS(58.49%)。当与SC结合在完整ADFF-Net模型中时,SPE和SEN均显著改善,证明了两个组件的互补作用。
通过特征编码和重建可视化跳跃连接在保留信号细节中的作用显示,当存在SC时,重建图谱保留了原始融合特征的全局频谱结构和局部信号动态,包括平滑的时间过渡、连贯的能量分布和良好保留的频率依赖模式。移除SC会导致显著退化,重建图谱变得噪声较多且空间碎片化。这些差异在所有四种呼吸音类别中均一致存在,表明SC在特征编码和重建过程中对保留类别特定模式至关重要。
四分类预测结果的混淆矩阵显示,ADFF-Net在区分正常和both类别方面实现了高精度,但难以正确识别crackle和wheeze事件,这些事件经常被误分类为正常声音。类别性能分析表明,模型在三个异常类别(crackle、wheeze和both)上实现了相对较高的SPE(90.89%至96.44%),表明对异常模式避免误报的能力较强。但SEN在类别间差异显著,正常和both类别显示出较高的SEN值(分别为81.38%和80.42%),而crackle和wheeze类别的SEN值显著较低(分别为38.52%和36.36%)。
当将任务表述为正常和异常类别之间的二分类问题时,ADFF-Net模型对正常类别实现了SPE 57.94%和SEN 81.38%,表明大多数正常样本被正确识别但存在中等假阳性率。对于异常类别,SPE达到90.89%,而SEN降至38.52%,表明模型在预测异常病例时高度保守,但漏掉了大部分真实异常样本。这种不平衡反映了模型倾向于以降低召回率为代价来支持异常检测的精确度。
与ICBHI2017数据库上最新进展的比较显示,基于聚合HS指标,ADFF-Net实现了与SOTA模型相当的性能。BTS模型获得了最高的HS(63.54%),主要由其最高的SEN和强大的SPE驱动。CycleGuardian模型获得了最高的SPE(82.06%),表明其在正确识别正常样本方面具有优异能力。其他模型显示出平衡的性能,通常整合了对比学习、数据增强或领域自适应技术。然而,四分类RSC任务上的SEN值仍然较差,所有SOTA方法实现的SEN值较低(约42-46%),表明在ICBHI2017数据集中检测异常病例仍然是一个重大挑战。

讨论与展望

本研究提出的ADFF-Net框架在集成HS指标上的竞争性性能可归因于双流声学特征和ADFF模块设计,该设计结合了基于注意力的特征融合与跳跃连接。首先,结合Mel-FBank和Mel频谱图特征有效平衡了分类指标。其次,ADFF模块相较于基线融合策略(如Concat-AST、AST-Concat和不含SC的ADFF-Net)实现了更优性能。通过联合融入双分支声学输入和先进融合架构,ADFF-Net在敏感性和特异性之间实现了平衡权衡,并达到了具有竞争力的SOTA性能。
ADFF-Net在识别异常呼吸音方面存在困难的原因可能包括:ADFF模块和AST骨干网络在时间-频率块上操作,时间分辨率相对粗糙且采用全局令牌聚合,这种设计有利于表征正常呼吸的稳定、高能量模式,但倾向于平滑掉短暂、低能量瞬变;在ICBHI2017数据集的严重类别不平衡下,通过学习到的注意力图偏向于对多数正常类别的判别;目标函数平等对待所有训练案例,可能驱使决策边界朝向更高的特异性而牺牲敏感性。
在ICBHI2017数据库上,四分类任务仍有相当大的改进空间。BTS模型通过引入利用呼吸音元数据的文本-音频多模态方法实现了最高HS值。类似先进技术常见于最近的SOTA方法中,包括大尺度模型、对比学习、微调策略以及数据增强或跨领域自适应。一个关键限制是相对较低的类别级别SEN值,从临床角度来看,这种敏感性不足以用于医学诊断。然而,这一限制并非ADFF-Net独有,而是反映了更广泛的RSC挑战。
准确将呼吸音分类为正常、crackle、wheeze和both类别具有挑战性的原因包括:类别间的声学边界通常模糊;巨大的类内变异性和类间相似性使判别复杂化;一些异常声音微弱、短暂或间歇性,易与正常呼吸混淆;类别不平衡常见,正常记录通常主导公共数据集。解决这些挑战需要更具表达力的特征表示和能够可靠区分四种呼吸音类别的鲁棒分类策略。
未来研究方向包括:评估ADFF风格模块在相关问题上(如咳嗽和心音分析)的泛化能力;通过扩大临床合作、数据增强、生成建模和领域适应来平衡呼吸音数据库中的病例数量;通过多部位记录、整合生理信号或胸部成像数据、利用上下文元数据以及将呼吸音转化为多样定量形式来实现多样化信号收集;将Transformer架构扩展至大型多模态模型以整合呼吸音、自由文本患者描述、额外模态和声学特征解释;探索类别加权交叉熵和Focal Loss等损失函数以在严重类别不平衡下提高诊断敏感性;在医学领域标注数据集稀缺的背景下,探索弱监督学习、无监督学习和对比学习等替代训练范式;将可解释人工智能(XAI)技术(如注意力图可视化、基于梯度的归因方法、Kolmogorov-Arnold Networks(KANs)和TaylorKAN)作为未来研究的核心焦点,以提高透明度、确保可靠性并增强临床信任。

结论

本研究提出了ADFF-Net,一个通过基于注意力的特征融合模块融合Mel-FBank和Mel频谱图表示的框架。通过利用互补特征并结合跳跃连接,ADFF-Net实现了与最新方法相比具有竞争力的性能。然而,当前对crackle和wheeze的敏感性仍不足以进行可靠的医学诊断和临床部署。未来研究方向包括改善患者分布平衡以减轻数据偏差、扩展信号采集和特征多样性以增强模型鲁棒性、开发先进网络架构和学习范式以在严格的多中心验证后加强敏感性和支持临床适用性。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号