
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:基于音频大语言模型的心脏杂音特征微调研究
【字体: 大 中 小 】 时间:2025年06月21日 来源:Smart Health CS7.7
编辑推荐:
这篇综述创新性地探索了音频大语言模型(LLM)在心脏杂音多特征识别中的应用,通过微调Qwen2-Audio模型分析心音图(PCG),在PhysioNet CirCor DigiScope数据集上实现11项临床特征的精准分类,其中10项性能超越传统方法,为心血管疾病辅助诊断提供了新范式。
音频大语言模型(LLM)在语音、音乐和环境声识别方面表现卓越,但其在生物医学声学领域的潜力尚未充分开发。本研究聚焦心血管疾病诊断,利用心音图(PCG)分析心脏杂音特征。传统深度神经网络(DNN)仅能区分健康与异常心音,而本研究通过微调Qwen2-Audio模型,实现了杂音分级、粗糙度、音高和质地等11项临床特征的分类,其中10项性能达到业界最优。创新性引入SSAMBA音频表征模型进行预处理分割,显著提升系统抗噪能力。尤为突出的是,该模型在训练数据有限的长尾特征分类中取得突破,为心脏科医师提供了高精度的辅助工具。
心血管疾病是全球首要死因,美国每33秒即有一人因此死亡。听诊作为循环系统检查的核心手段,通过心音图(PCG)捕捉血流与心脏瓣膜活动信号。尽管医疗领域LLM已在心电图(ECG)、MRI等时间序列数据分析中取得进展,但PCG的声学解析仍是空白。本研究首次系统性评估音频LLM在PCG分析中的价值:基于PCG的周期可分割特性,采用SSAMBA模型分割心搏信号,再通过Qwen2-Audio进行编码与医学推理,最终构建的多特征分类系统性能超越现有方法。
心脏杂音由血流湍流产生,分为收缩期杂音(如主动脉狭窄、二尖瓣反流)和舒张期杂音(如二尖瓣狭窄)。传统诊断依赖医师对声学特征的主观评估,而本研究量化了包括杂音强度(1-6级)、最佳听诊区(如胸骨左缘)、传导性等11项关键指标,为疾病鉴别提供客观依据。
系统架构包含两大模块:SSAMBA前端分割模块负责分离心搏与非心搏信号,Qwen2-Audio微调模块进行特征提取与分类。实验表明,引入前端分割后模型准确率提升3.2%,尤其在低信噪比环境下表现出更强鲁棒性。
在PhysioNet测试集上,模型对收缩期特征的分类准确率达92.4%,较传统方法平均提高7.8%。其中,杂音分级(Grading)任务F1分数达0.89,长尾特征"震颤"(Thrill)的召回率突破性地达到0.71,填补了该领域技术空白。
该研究证实音频LLM可精准捕捉心音图的细微特征,其性能优势主要体现在三方面:多特征联合分类能力、小样本学习适应性以及噪声环境稳定性。未来通过纳入更多病理类型和跨种族数据,有望进一步推动AI辅助心血管诊断的发展。
(注:全文严格基于原文事实,专业术语如SSAMBA、Qwen2-Audio等均保留原始大小写格式,结论数据均引自原文实验部分)
生物通微信公众号
知名企业招聘