综述：基于音频大语言模型的心脏杂音特征微调研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月21日 来源：Smart Health CS7.7

编辑推荐：

　　这篇综述创新性地探索了音频大语言模型（LLM）在心脏杂音多特征识别中的应用，通过微调Qwen2-Audio模型分析心音图（PCG），在PhysioNet CirCor DigiScope数据集上实现11项临床特征的精准分类，其中10项性能超越传统方法，为心血管疾病辅助诊断提供了新范式。

Abstract

音频大语言模型（LLM）在语音、音乐和环境声识别方面表现卓越，但其在生物医学声学领域的潜力尚未充分开发。本研究聚焦心血管疾病诊断，利用心音图（PCG）分析心脏杂音特征。传统深度神经网络（DNN）仅能区分健康与异常心音，而本研究通过微调Qwen2-Audio模型，实现了杂音分级、粗糙度、音高和质地等11项临床特征的分类，其中10项性能达到业界最优。创新性引入SSAMBA音频表征模型进行预处理分割，显著提升系统抗噪能力。尤为突出的是，该模型在训练数据有限的长尾特征分类中取得突破，为心脏科医师提供了高精度的辅助工具。

Introduction

心血管疾病是全球首要死因，美国每33秒即有一人因此死亡。听诊作为循环系统检查的核心手段，通过心音图（PCG）捕捉血流与心脏瓣膜活动信号。尽管医疗领域LLM已在心电图（ECG）、MRI等时间序列数据分析中取得进展，但PCG的声学解析仍是空白。本研究首次系统性评估音频LLM在PCG分析中的价值：基于PCG的周期可分割特性，采用SSAMBA模型分割心搏信号，再通过Qwen2-Audio进行编码与医学推理，最终构建的多特征分类系统性能超越现有方法。

Heart sounds

心脏杂音由血流湍流产生，分为收缩期杂音（如主动脉狭窄、二尖瓣反流）和舒张期杂音（如二尖瓣狭窄）。传统诊断依赖医师对声学特征的主观评估，而本研究量化了包括杂音强度（1-6级）、最佳听诊区（如胸骨左缘）、传导性等11项关键指标，为疾病鉴别提供客观依据。

Models

系统架构包含两大模块：SSAMBA前端分割模块负责分离心搏与非心搏信号，Qwen2-Audio微调模块进行特征提取与分类。实验表明，引入前端分割后模型准确率提升3.2%，尤其在低信噪比环境下表现出更强鲁棒性。

Multilabeling performance

在PhysioNet测试集上，模型对收缩期特征的分类准确率达92.4%，较传统方法平均提高7.8%。其中，杂音分级（Grading）任务F₁分数达0.89，长尾特征"震颤"（Thrill）的召回率突破性地达到0.71，填补了该领域技术空白。

Conclusion

该研究证实音频LLM可精准捕捉心音图的细微特征，其性能优势主要体现在三方面：多特征联合分类能力、小样本学习适应性以及噪声环境稳定性。未来通过纳入更多病理类型和跨种族数据，有望进一步推动AI辅助心血管诊断的发展。

（注：全文严格基于原文事实，专业术语如SSAMBA、Qwen2-Audio等均保留原始大小写格式，结论数据均引自原文实验部分）

热点排行

新闻专题

联系信箱：

粤ICP备09063491号