
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于迭代聚类与轮廓分析的预处理选择方法:一种有效诊断罕见和疑难心血管病例的心音分类增强策略
【字体: 大 中 小 】 时间:2025年09月15日 来源:CMES - Computer Modeling in Engineering and Sciences
编辑推荐:
本研究针对心音分类中数据不平衡和预处理方法不足的问题,提出了一种结合迭代K-means聚类和轮廓评分分析的预处理选择方法。研究人员在HeartWave数据集上进行了系统评估,使用多种迁移学习模型验证了该方法在二分类和多分类任务中的有效性。结果表明,该方法显著提升了模型性能,其中MobileNetV2模型在增强多分类任务中的加权F1分数提高了27.10%,ResNet50在二分类中的准确率提升了8.70%。这项研究为心血管疾病的精准诊断提供了有效的预处理策略,具有重要的临床意义。
心血管疾病(CVDs)是全球死亡的主要原因,每年夺去数百万人的生命。传统诊断方法如听诊虽然常用,但高度依赖医生的经验和技能,研究表明医学生和初级保健医生仅能准确识别40%的心血管病例。随着人工智能技术的发展,基于深度学习的心音分类为心血管诊断提供了新的解决方案。然而,心音数据集普遍存在严重的类别不平衡问题,深度学习模型往往偏向多数类,导致对罕见和疑难心血管病例的预测性能不佳。此外,现有的预处理方法如随机下采样或聚类选择往往缺乏系统性,无法保证数据质量,限制了模型的准确性和泛化能力。
为了应对这些挑战,来自沙特阿拉伯国王 Abdulaziz 大学的研究团队开展了一项研究,提出了一种新颖的预处理方法:迭代K-means聚类结合轮廓评分分析,旨在通过下采样优化数据质量,提升深度学习模型在心音分类中的性能。该研究成果发表在《CMES - Computer Modeling in Engineering and Sciences》上,为心血管疾病的精准诊断提供了重要的技术支持。
研究人员主要采用了以下关键技术方法:首先,使用4阶巴特沃斯低通滤波器对心音信号进行降噪处理,保留频率在600 Hz以下的诊断相关信息;其次,通过心跳周期分割技术进行数据增强,增加数据集规模;然后,将一维心音信号转换为二维梅尔频谱图图像,以便于深度学习模型处理;最后,应用提出的迭代聚类和轮廓评分分析方法进行下采样,平衡数据集并选择高质量样本。研究使用了来自HeartWave数据集的1353条记录,包括正常和多种异常心音类别,如主动脉瓣狭窄、二尖瓣反流等。
研究结果分为四个部分,分别对应二分类数据集、增强二分类数据集、多分类数据集和增强多分类数据集的实验结果。
在二分类数据集上的结果表明,提出的预处理方法显著提高了所有模型的性能。ResNet50模型的平均准确率从83.7%提升至92.4%,提高了8.7%;ResNet152模型达到了92.5%的最高平均准确率。轻量级模型MobileNetV2的平均AUC从76.30%大幅提升至95.25%,增益达18.95%,显示了该方法在提升模型区分能力方面的显著效果。
在增强二分类数据集上的实验显示,预处理方法带来了不同程度的改善。MobileNet模型表现最为突出,平均准确率提高了4.8%,加权F1分数提升了5.3%,平均AUC增加了12.68%。这些结果表明,即使在使用数据增强后,提出的预处理方法仍能进一步提升模型性能。
在多分类数据集上的实验结果验证了该方法在处理复杂分类任务中的有效性。DenseNet201模型的平均准确率从49.2%提高到52.5%,增益为3.3%;MobileNet模型的平均AUC提升了8.86%,加权F1分数提高了4.7%。这些改进表明,该方法能够有效处理多类别心音分类问题,提升对各类心血管疾病的识别能力。
在增强多分类数据集上的实验取得了最为显著的成果。MobileNetV2模型表现尤为突出,平均准确率提高了22.9%,加权F1分数提升了27.1%,平均AUC增加了21.25%。ResNet152模型达到了81.42%的最高平均AUC,较基线提高了18.91%。这些结果充分证明了提出的预处理方法在处理复杂多分类任务中的强大能力。
研究的讨论部分深入分析了这些结果的意义。提出的迭代聚类与轮廓分析方法有效解决了心音数据中的类别不平衡问题,通过选择高质量样本和平衡类别分布,显著提升了深度学习模型的性能。该方法特别有利于识别罕见和疑难心血管病例,如肺动脉狭窄和三尖瓣疾病等传统方法难以准确诊断的病症。
与现有工作相比,该研究方法避免了随意丢弃聚类样本的做法,而是基于轮廓评分系统性地选择最具代表性的样本,确保了数据质量。研究还发现,轻量级模型如MobileNetV2和MobileNet从该方法中获益最多,这表明该方法特别适合在计算资源有限的场景中部署。
然而,研究也指出了当前方法的局限性,特别是在增强二分类数据集上效果相对较弱,这主要是由于心跳周期分割的不准确性导致的。未来工作将专注于提高分割精度,结合可解释人工智能(XAI)和注意力机制,并在更多数据集上验证方法的通用性。
该研究的结论部分总结了主要发现和贡献。提出的预处理方法通过迭代K-means聚类和轮廓评分分析,有效提升了心音分类的准确性和可靠性。在HeartWave数据集上的综合评估证明了该方法在不同分类任务和模型架构中的有效性,为心血管疾病的精准诊断提供了有力的技术支持。未来研究将致力于改进分割算法,扩展方法的应用范围,并探索更多的聚类评估指标,以进一步提高心音分类的性能和临床适用性。
这项研究不仅推动了心音自动分析技术的发展,也为处理医学数据中的类别不平衡问题提供了新的思路和方法,对促进精准医学在心血管领域的应用具有重要意义。
生物通微信公众号
知名企业招聘