综述:基于音频大语言模型的心脏杂音特征微调研究

【字体: 时间:2025年06月21日 来源:Smart Health CS7.7

编辑推荐:

  这篇综述创新性地探索了音频大语言模型(LLM)在心脏杂音多特征识别中的应用,通过微调Qwen2-Audio模型分析心音图(PCG),在PhysioNet CirCor DigiScope数据集上实现11项临床特征的精准分类,其中10项性能超越传统方法,为心血管疾病辅助诊断提供了新范式。

  

Abstract

音频大语言模型(LLM)在语音、音乐和环境声识别方面表现卓越,但其在生物医学声学领域的潜力尚未充分开发。本研究聚焦心血管疾病诊断,利用心音图(PCG)分析心脏杂音特征。传统深度神经网络(DNN)仅能区分健康与异常心音,而本研究通过微调Qwen2-Audio模型,实现了杂音分级、粗糙度、音高和质地等11项临床特征的分类,其中10项性能达到业界最优。创新性引入SSAMBA音频表征模型进行预处理分割,显著提升系统抗噪能力。尤为突出的是,该模型在训练数据有限的长尾特征分类中取得突破,为心脏科医师提供了高精度的辅助工具。

Introduction

心血管疾病是全球首要死因,美国每33秒即有一人因此死亡。听诊作为循环系统检查的核心手段,通过心音图(PCG)捕捉血流与心脏瓣膜活动信号。尽管医疗领域LLM已在心电图(ECG)、MRI等时间序列数据分析中取得进展,但PCG的声学解析仍是空白。本研究首次系统性评估音频LLM在PCG分析中的价值:基于PCG的周期可分割特性,采用SSAMBA模型分割心搏信号,再通过Qwen2-Audio进行编码与医学推理,最终构建的多特征分类系统性能超越现有方法。

Heart sounds

心脏杂音由血流湍流产生,分为收缩期杂音(如主动脉狭窄、二尖瓣反流)和舒张期杂音(如二尖瓣狭窄)。传统诊断依赖医师对声学特征的主观评估,而本研究量化了包括杂音强度(1-6级)、最佳听诊区(如胸骨左缘)、传导性等11项关键指标,为疾病鉴别提供客观依据。

Models

系统架构包含两大模块:SSAMBA前端分割模块负责分离心搏与非心搏信号,Qwen2-Audio微调模块进行特征提取与分类。实验表明,引入前端分割后模型准确率提升3.2%,尤其在低信噪比环境下表现出更强鲁棒性。

Multilabeling performance

在PhysioNet测试集上,模型对收缩期特征的分类准确率达92.4%,较传统方法平均提高7.8%。其中,杂音分级(Grading)任务F1分数达0.89,长尾特征"震颤"(Thrill)的召回率突破性地达到0.71,填补了该领域技术空白。

Conclusion

该研究证实音频LLM可精准捕捉心音图的细微特征,其性能优势主要体现在三方面:多特征联合分类能力、小样本学习适应性以及噪声环境稳定性。未来通过纳入更多病理类型和跨种族数据,有望进一步推动AI辅助心血管诊断的发展。

(注:全文严格基于原文事实,专业术语如SSAMBA、Qwen2-Audio等均保留原始大小写格式,结论数据均引自原文实验部分)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号