《Diagnostics》:Prevalence and Interplay of Modifiable and Genetic Determinants of Eustachian Tube Dysfunction Among Saudi Adults: A Nationwide Study
编辑推荐:
本文提出一种结合梅尔频率倒谱系数(MFCC)与Daubechies小波分析的混合特征提取方法,用于心音信号的自动分类。研究通过严格的受试者级别数据划分和嵌套交叉验证,评估了多种机器学习模型(SVM、LR、RF、DT)在PASCAL数据集上的性能。结果表明,支持向量机(SVM)模型在使用Boruta算法选择的8个特征时,取得了最佳性能(准确率75.56%,AUC 0.8419),为资源有限环境下的计算机辅助心脏听诊(CAA)提供了一种高效、可解释的解决方案。
背景与目标
心血管疾病是全球范围内导致死亡的主要原因,开发用于早期检测的无创工具至关重要。基于信号处理和机器学习的自动分类系统为支持临床诊断提供了替代方案。本研究旨在实现和评估用于区分正常和异常心音的机器学习模型,采用混合特征提取方法,重点在于提供一种轻量级、可解释且计算高效的解决方案,适用于计算机辅助听诊和早期心血管筛查。
方法与实践
研究方法论包含六个连续阶段的工作流程。在数据恢复阶段,从PASCAL心音挑战赛数据库中获取了标记为正常、杂音和期外收缩的录音,随后将其二值化为正常和异常两类。数据预处理阶段将所有录音调整至固定的3秒持续时间,并对其幅度进行归一化,以模拟常见的临床记录条件。对于不符合最小持续时间要求的异常录音,采用时间扩展程序,通过复制一个心动周期(0.8秒)的信号段并附加到原始录音末尾,直至总时长达到3秒,从而保留了信号的周期性行为。最终,通过从200个正常录音中随机选择112个样本,获得了一个完全平衡的数据集,共224个样本用于分类模型。
特征提取阶段应用了两种互补的数字信号处理技术:梅尔频率倒谱系数(MFCC)和小波-Daubechies分析。MFCC模拟人类听觉系统的感知行为,其提取过程包括将心音信号分割成25毫秒的帧(重叠60%),应用巴特利特(三角)窗函数,计算快速傅里叶变换(FFT),应用梅尔尺度滤波器组,进行对数压缩,最后应用离散余弦变换(DCT)生成MFCCs。本研究提取了8、12、16、20和26个MFCC系数,并为每个系数计算了均值和标准差两个统计描述符,从而生成不同维度的特征向量。
小波分析特别适用于心音等非平稳生物医学信号的分析。本研究采用离散小波变换(DWT),使用Daubechies-4、Daubechies-6和Daubechies-8小波函数,进行了四个层次的分解,产生细节子带(D1–D4)和近似子带(A4)。从每个子带中计算了六个统计描述符:均值、标准差、方差、能量、香农能量和香农熵,每个小波基数据集包含30个特征。随后,将经过z分数归一化的MFCC和小波特征向量整合成一个单一的混合表征。
特征选择阶段应用了两种互补的方法:前向选择(Forward Selection)和Boruta算法。这两种技术均在训练集上实施,以防止数据泄露。前向选择方法迭代地评估特征子集,根据F1-macro分数逐步添加最能改善模型性能的变量。Boruta算法通过将真实特征的重要性与随机置换的“影子”特征进行比较,来识别所有统计上相关的特征。
分类阶段使用了四种监督机器学习算法:逻辑回归(LR)、支持向量机(SVM)、决策树(DT)和随机森林(RF)。所有数据集在用于分类前都进行了Z分数标准化。每个分类器都使用GridSearchCV和5折交叉验证进行了超参数优化。对于每个生成的15个数据集,使用80/20的分层分割分别训练了两个分类模型(一个使用前向选择特征,另一个使用Boruta选择特征),共计训练了120个模型。
模型性能使用准确率、精确度、召回率(灵敏度)、特异性、F1分数和曲线下面积(AUC)进行评估。准确率衡量正确分类的个体百分比。召回率(灵敏度)衡量模型正确检测出的阳性病例比例。特异性衡量实际阴性被正确识别为阴性的比例。精确度衡量重复测量时结果的一致性。F1分数是精确度和召回率的调和平均数。ROC曲线提供了诊断准确性的整体度量,AUC值范围从0到1。
结果与发现
研究共生成了15个混合数据集。通过对29个最佳性能配置的详细分析,最终确定了六个最突出的模型。结果显示,最高准确率达到0.7556,由采用SVM、LR和DT技术的多个模型在不同数据集上实现。关于灵敏度(召回率),最高记录值为0.8636,由SVM模型在使用Boruta选择的8个特征的数据集13上获得。这表明该模型在识别病理病例方面具有较高能力。相反,最高特异性值为0.9565,由决策树分类器在数据集9、12和15上获得,显示出识别正常心音的强大能力,但灵敏度较低。对于精确度指标,最佳结果为0.9231,同样由决策树分类器产生。关于F1分数,最高值为0.8235,由逻辑回归模型在数据集13上获得。对于AUC指标,最高值为0.8419,由采用SVM和LR技术的三个模型实现。
表现最佳的模型是使用Boruta特征选择(8个特征)在数据集13上训练的SVM分类器。该模型的混淆矩阵显示了真阳性和真阴性的平衡分布,确认了分类器在检测异常心音方面具有足够的灵敏度,同时对正常病例保持了可接受的特异性。其ROC曲线的AUC值为0.8419,表明模型在不同分类阈值下区分正常和异常心音具有很强的判别能力。
讨论与意义
与先前使用相同PASCAL数据集的研究相比,本研究的结果展示了具有更紧凑特征集的竞争性或更优性能。例如,有研究使用随机森林和支持向量机结合统计、频率基和信息论特征分别报告了81%和75%的准确率。另一项研究使用逻辑回归在52个手工制作的特征上训练实现了73.17%的准确率。相比之下,本研究的混合MFCC-小波模型在使用Boruta算法选择的仅8个特征的情况下,实现了75.56%的准确率和0.8419的AUC。这种维度的减少不仅降低了模型复杂性,也促进了在嵌入式便携式系统中的实时应用能力。
与需要大量训练数据和大量计算资源的深度学习架构相比,本研究强调可解释性和效率,这是实时应用(如数字听诊器或远程医疗设备)的两个关键因素。MFCC在应用于生物医学信号时存在一些固有限制,例如其对噪声和记录伪影的敏感性。本研究采用的混合方法通过结合小波基特征来平衡MFCC的弱点,小波能够保留MFCC可能无法捕捉到的瞬态成分和时频细节,从而产生了更稳定和有意义的表征。
本研究的一个关键限制是相对较小的数据集大小(224个平衡录音),这限制了模型的泛化能力。未来的工作可以通过结合自适应分割或动态时间规整(DTW)来时间对齐心脏事件,以解决心音固有的非平稳性。从临床角度来看,所提出的方法在可解释性方面具有若干优势。与深度学习黑箱模型不同,混合MFCC-小波表征提供了透明的、具有生理学意义的特征。MFCC捕捉心音的频谱包络,类似于医生听诊时感知的音调和音色,而小波子带则表征了对应于S1和S2阶段的瞬态事件。这种计算域和感知域的一致性增强了系统的临床可信度。此外,紧凑的特征空间允许模型在嵌入式微控制器上实现,使得能够开发用于农村或资源有限医疗环境的便携式诊断系统。
结论与展望
本研究介绍了一种平衡诊断性能、可解释性和计算效率的混合方法。提出的模型整合了梅尔频率倒谱系数(MFCC)和小波基统计特征,能够提取心音图(PCG)信号的频谱和时域特征。最佳配置——使用八个Boruta选择特征训练的SVM分类器——达到了75.56%的准确率、0.8419的AUC和0.8636的召回率。这些结果表明,一个紧凑且可解释的特征集可以达到与更复杂的深度学习方法相竞争的诊断性能,同时在检测异常心脏事件方面保持强大的灵敏度。
该方法在简单性、低计算成本和适用于嵌入式实现方面具有优势,使其成为实时或便携式系统的合适选择。然而,有限的数据集大小和心音图记录的变异性表明,需要更大的数据集进行验证和探索自适应分割方法。未来的工作也可能将这一框架扩展到多类分类,以区分特定的心脏病理,如杂音、奔马律或心律失常。