CardioPHON:基于心音图记录的心脏功能筛查的质量评估与自我监督预训练方法
《Biomedical Signal Processing and Control》:CardioPHON: Quality assessment and self-supervised pretraining for screening of cardiac function based on phonocardiogram recordings
【字体:
大
中
小
】
时间:2025年11月07日
来源:Biomedical Signal Processing and Control 4.9
编辑推荐:
远程监测心血管疾病对早期发现异常心脏功能至关重要,可及时干预并实现个性化治疗。异常心音可通过计算机辅助决策系统自动检测,作为心血管问题的初筛工具或疗效监测手段。本文提出CardioPHON模型,集成心音质量评估与分类功能,用于从心音图录音中筛查异常心脏功能。该模型通过自监督方式预训练于六个小型至中型心音数据集,支持自动去除低质量录音以避免误诊,并在2022年George B. Moody生理学网络心音挑战赛中实现最佳性能。多模态模型(结合音频与社会人口学特征)在官方排行榜中排名第一,优于其他多模态方法,而单模态模型(仅音频)在同类方法中排名第四。CardioPHON是首个公开的心音录音预训练模型,可促进心血管诊断中高效AI模型的开发。
心血管疾病的远程监测在早期发现异常心脏功能方面发挥着至关重要的作用,它不仅能够实现及时干预,还能提高预防性护理的效率,并为患者提供个性化的治疗方案。通过计算机辅助的决策支持系统,可以自动检测心脏声音中的异常,将其作为心血管问题的初步筛查工具,或者用于评估治疗和干预措施的效果。本文提出了一种名为CardioPHON的综合心脏声音质量评估与分类工具,该工具可用于从听诊图(Phonocardiogram, PCG)记录中筛查异常心脏功能。CardioPHON模型采用自监督学习方式,在六个小型和中型心脏声音数据集上进行预训练,能够自动去除低质量的记录,以确保能够准确识别心脏异常的细微声音,从而避免误诊。此外,该模型在心脏声音分类任务中实现了最先进的性能。
心脏声音的采集通常通过听诊图信号进行,使用数字听诊器或手机等设备,将心脏产生的声音通过麦克风和传感器转换为电信号。随着可穿戴听诊图传感器的出现,这些设备在家庭护理和远程医疗中的应用潜力巨大。然而,家庭环境或日常活动环境(如AAL环境)相比临床环境更具挑战性,因为通常由非专业人员操作这些传感器。在临床环境中,心脏声音已经受到体内生理噪声和环境干扰的影响,而在真实世界场景中,这种噪声更加严重。因此,评估记录的质量对于确保模型在心血管疾病筛查中的鲁棒性、可靠性和临床可解释性至关重要。
传统的心脏声音质量评估方法主要依赖于机器学习算法,如逻辑回归用于分类由非专业人士使用商业医疗听诊器或手机听诊器采集的心脏声音信号质量,随机森林结合传感器无关的频谱域特征进行训练,支持向量机(SVM)则用于二分类质量评估(不可接受 vs. 可接受),并扩展为三类质量等级(不可接受、良好和优秀)。一些研究还针对新生儿胸部声音的噪声评估和实时多级心脏和肺部声音质量评估进行了设计。此外,也有研究将SVM用于心脏声音质量评估和声音定位,通过最小化S1和S2声音之间的类间和类内差异来提高分类效果。另一项研究则使用了小波散射变换进行心脏声音分类。
近年来,心脏声音分类方法逐渐转向使用集成模型,如AdaBoost和卷积神经网络(CNN)的组合,或者递归神经网络(RNN)生成观测结果,用于隐式半马尔可夫模型。Ballas等人首次提出了基于自监督学习的心脏声音分类方法,但其性能相对有限,在2022年乔治·B·莫迪(George B. Moody)PhysioNet挑战赛中仅排名13位,这可能与用于模型预训练的心脏声音数据量有限有关。同样,有研究者使用了预训练的wav2vec 2.0模型进行心脏声音分类任务,但同样受限于可用数据量。最近,一种名为“Masked Modeling Duo”的自监督学习方法被提出,专门用于心脏声音分类任务,但仍然面临数据不足的问题。
在机器学习任务中,大规模数据的获取是提升模型性能的关键因素。近年来,语音和语言处理技术的快速发展,例如大型语言模型(如GPT4、LLaMA2)和自动语音识别系统(如Whisper、wav2vec 2.0),在大量训练数据的支持下取得了显著的进展。然而,在心脏声音领域,尚无类似规模的数据集可供使用。为了克服这一限制,我们识别并收集了目前公开可用的多个小型和中型心脏声音数据集,并将其用于自监督学习的模型预训练,或者用于对预训练于大规模通用音频数据的模型进行微调。
本文的主要贡献包括三个方面:首先,我们开发了一种基于已有质量特征和标注的心脏声音记录质量评估模型,该模型用于识别不符合最低质量要求的心脏声音记录,并为后续的心脏声音分类任务准备数据。其次,我们采用自监督学习方式,使用六个公开可用的心脏声音数据集对心脏声音分类模型进行了预训练,这使得该模型成为目前最大的、最多样化的心脏声音数据集集合,从而能够捕捉到不同数据集中的广泛心脏声音变化。据我们所知,这是首个在心脏声音记录领域发布的预训练模型,有望促进未来开发高效的数据利用型人工智能模型,这些模型可以很好地迁移到心血管诊断的各种下游任务中。第三,我们将质量评估模型与心脏声音分类模型相结合,提出了集成模型CardioPHON,并在2022年乔治·B·莫迪PhysioNet挑战赛的验证数据集上进行了评估,取得了最先进的结果。
为了构建高质量的心脏声音分类模型,我们收集了多个公开可用的心脏声音数据集,这些数据集涵盖了临床和非临床环境下的心脏声音记录。在选择数据集时,我们遵循了以下标准:(1)数据集可以通过开放访问方式获取,或在申请后提供;(2)心脏声音记录的总时长超过几分钟;(3)数据集中包含多个参与者的信息。这些数据集的多样性为模型的自监督学习提供了丰富的训练材料,使模型能够适应不同环境下的心脏声音记录,并捕捉到更多领域相关的特征。
在实验结果部分,我们总结了心脏声音记录质量评估和心脏声音分类的成果。质量评估的结果表明,自监督学习方法在识别低质量记录方面表现优异,能够有效去除背景噪声和干扰,从而提高后续分类任务的准确性。在心脏声音分类任务中,CardioPHON模型在多个指标上均优于现有方法,特别是在结合音频和非音频特征的多模态模型中,其性能表现尤为突出。通过与单一音频特征的模型进行比较,我们发现多模态模型在心脏声音分类任务中具有更高的鲁棒性和泛化能力。
在讨论心脏声音记录质量评估时,我们指出,无论使用数字听诊器还是手机等设备,心脏声音的采集都会受到生理噪声和环境干扰的影响。在临床和非临床环境中,这些噪声的存在都会影响特征提取的准确性,进而影响模型的学习效果。质量较差的心脏声音记录可能会导致模型误判,影响诊断的可靠性。因此,有效的质量评估方法对于提高模型的性能和临床应用价值至关重要。CardioPHON模型通过自监督学习的方式,能够在不依赖标注数据的情况下,自动识别低质量记录,从而为后续的分类任务提供高质量的数据输入。
CardioPHON模型的构建过程充分考虑了心脏声音记录的多样性和复杂性。通过整合多个数据集,模型能够学习到更多领域相关的特征,从而提高分类的准确性。此外,模型还结合了音频和非音频特征,这种多模态方法在心脏声音分类任务中表现出色,能够更好地捕捉心脏声音的细微变化。在2022年乔治·B·莫迪PhysioNet挑战赛中,CardioPHON模型在官方排行榜上取得了最佳排名,尤其是在多模态方法中表现突出。相比之下,仅基于音频特征的单一模型在该挑战赛中也取得了优异的成绩,排名第四,优于其他采用多模态方法的模型。
在结论部分,我们强调了自监督学习在构建心脏声音分类模型中的重要性。通过在多个小型和中型数据集上进行预训练,模型能够学习到更多心脏声音的特征,从而提高其在不同环境下的泛化能力。CardioPHON模型的多模态设计使其在心脏声音分类任务中表现出色,能够有效识别心脏异常并提高诊断的准确性。该模型的发布为心血管疾病的远程监测和人工智能在医疗领域的应用提供了新的思路和工具,有望在未来的研究和临床实践中发挥重要作用。
本文的研究得到了多个资助机构的支持,包括COST行动CA19121“GoodBrother”项目,该项目专注于隐私保护的音频和视频应用,用于主动和辅助生活。此外,Andrej Zgank的研究工作还得到了斯洛文尼亚研究与创新署的部分资助。这些支持为本研究提供了必要的资源和条件,使我们能够完成高质量的心脏声音分类模型的开发和评估。
总之,CardioPHON模型的提出标志着心脏声音处理领域的一个重要进展。通过结合自监督学习和多模态特征,该模型不仅提高了心脏声音分类的准确性,还增强了模型在不同环境下的鲁棒性。未来的研究可以进一步探索该模型在其他心血管诊断任务中的应用,例如心律失常检测、心力衰竭评估等。同时,我们也可以考虑将CardioPHON模型与其他医疗数据源结合,如心电图(ECG)和血压监测数据,以实现更全面的心血管健康评估。此外,随着更多高质量的心脏声音数据集的发布,CardioPHON模型的性能有望进一步提升,从而为心血管疾病的早期检测和个性化治疗提供更可靠的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号