编辑推荐:
《ECG-LM: Understanding Electrocardiogram with a Large Language Model》一文开发了多模态大语言模型(ECG-LM)用于处理心电图(ECG)信号。该模型在心血管疾病检测等任务上表现出色,能有效捕捉 ECG 特征,为疾病预测和问答等应用提供支持,具有重要研究价值。
### 引言
心电图(ECG)作为一种广泛应用的无创医疗工具,在检测潜在健康风险和支持家庭健康监测方面至关重要。医疗专业人员常结合患者生理数据、病史等信息,通过 ECG 进行准确诊断。然而,ECG 结果复杂,缺乏医学专业知识的普通用户难以解读,且高质量医疗资源有限,导致 ECG 在实际应用中无法充分发挥作用。现有处理 ECG 数据的算法,如监督学习和自监督学习方法,虽能减轻人力干预,但无法满足医学诊断需求。
近年来,多模态大语言模型(LLMs)发展迅速,具备处理文本和非文本信息的能力,应用领域不断拓展,但在 ECG 处理方面的研究尚少。为此,研究开发了 ECG-LM,这是首个结合文本和 ECG 信号的多模态 LLM,通过将 ECG 信号编码器的特征空间与 LLM 对齐,实现对两种模态的综合理解。同时,设计数据库扩展算法,利用心血管医学指南扩充数据,为心血管疾病诊断和分析提供更丰富、准确的数据支持。ECG-LM 对用户和医疗专业人员意义重大,能帮助用户管理心脏健康,辅助医疗人员诊断,提升心血管护理的整体效果。研究的主要贡献包括:创建首个处理文本和 ECG 信号的跨模态 LLM;提出数据扩展算法并构建监督微调(SFT)数据集;模型在零样本心血管疾病分类任务中表现优异,在 ECG 问答(ECG-QA)任务中经微调超越更大模型。
方法
- 相关工作
- 心电图:深度学习算法在 ECG 数据处理方面多集中于特征提取和有限的诊断任务,模型泛化能力有限,且未充分利用文本数据。
- 多模态 LLMs:LLMs 推动了自然语言处理的发展,多模态 LLMs 旨在弥合不同数据模态间的表示差距,在多领域应用广泛,但面临训练数据需求大、参数多、模态对齐困难等挑战。
- 心血管疾病检测:ECG 处理任务包括诊断分类、节律分类和形态分类,这些任务目的不同,关注 ECG 信号的不同特征,且均以零样本方式进行。
- 医学问答:医疗领域问答系统研究众多,LLMs 提升了其回答准确性和对话能力。现有多种医学 QA 数据集,ECG-QA 数据集专为 ECG 相关问答设计,包含大量样本。
- 提出的解决方案
- ECG 编码器:改进 ResNet-18 编码器,使其能处理可变大小输入,适应不同导联数量。在 PTB-XL 数据集上进行诊断超类分类预训练,引入投影层,使 ECG 编码可作为 LLM 的单个标记。
- 语言模型:选择 BioMedGPT-LM-7B 作为 LLM,它基于 LLaMA2-Chat-7B,在大量生物医学文章上增量训练,包含众多 ECG 相关文献。
- 数据收集和特征工程:选取 PTB-XL 数据集及 PTB-XL + 补充特征数据集作为预训练基础,纳入患者年龄、性别等信息,翻译非英文报告并人工验证。提取 12SL 工具计算的特征,结合医学诊断指南评估数值,将结果转换为文本描述,构建数据模板。通过随机省略部分导联信息扩展数据集。选择 ECG-QA 数据集中的单类型问题用于问答任务。
- 文本 - ECG 对齐:使 BioMedGPT-LM 适应处理文本和 12 导联 ECG,训练过程中冻结语言模型,训练 ECG 编码器使其特征空间与 LLM 对齐,通过自回归函数计算与 ECG 报告和特定导联相关标记的损失。
结果
- 实验设置:ECG 编码器训练 20 个 epoch,学习率为1×10?2,批量大小 64,使用 AdamW 优化器和交叉熵损失。文本 - ECG 联合预训练 20 个 epoch,含 4 个热身 epoch,学习率初始化为1×10?4,权重衰减 0.03,批量大小 12,梯度累积步数 8,使用 2 个 A100 GPU 训练 1 天,期间冻结 LLM。
- 分类:将数据集中标签分为诊断、形态和节律三类,按特定格式构建输入结构。采用准确率、精确率、召回率和 F1 分数评估模型性能,对比多个基线模型。结果显示,ECG-LM 在零样本设置下性能优异,超越少样本模型,但在节律和形态相关任务中部分指标较低,可能与数据集类别不平衡有关。与监督学习的 ResNet 对比,ECG-LM 在零样本形式分类任务中虽未超越,但展现出良好的泛化能力。
- 问答:依据 ECG-QA 数据集的划分进行实验,去除比较型问题后,将问题分为 S-Choose、S-Query 和 S-Verify 三类。选择相同基线模型,结果表明 ECG-LM 在各类问题上均超越其他 LLMs,在 S-Verify 和 S-Choose 任务中优于非 LLM 方法,在 S-Query 任务中排第三,但平均得分最高,体现了多模态 LLMs 的有效性和潜力。
- 消融研究:对 ECG-LM 进行消融研究,分别去除 ECG 编码器预训练、特定领域知识(用 LLaMA2-Chat 替代 BioMedGPT-LM)和数据库扩展三个组件。结果显示,去除这些组件后模型性能下降,表明它们对模型性能提升至关重要,且即使去除部分组件,ECG-LM 仍优于所选基线模型。
- 临床对话:利用 HealthCareMagic100k 数据集和自建的 2000 个 ECG 相关医患对话 SFT 数据集,对 BioMedGPT-LM 7B 进行微调,增强其临床对话能力。该模型可与用户进行交互,解释 ECG 模式、提供生活方式建议并预警健康问题,有助于个人主动监测心血管健康。
讨论
ECG-LM 是首个直接处理 ECG 数据的多模态 LLM,通过专门的 ECG 编码器处理 ECG 嵌入,与其他转换频率数据为文本的方法不同。研究结果表明,ECG-LM 在零样本和少样本设置下泛化能力强,但性能仍不及完全监督模型,这符合预期,因为引入 LLMs 旨在利用其对话能力拓展医学应用。然而,LLMs 存在幻觉问题,ECG-LM 也不例外,这可能与训练数据的噪声有关。目前完全监督方法在某些任务上仍优于基于 LLM 的方法,且无法完全消除 LLMs 的幻觉问题,因此 ECG-LM 暂不适用于实际应用,需在专业人员监督下使用。未来研究可构建更全面的数据集,交叉引用验证医学文献或数据库,探索更先进的对齐技术,如 BLIP-2,以提升 ECG 表示学习和模型整体性能。
结论
ECG-LM 是基于 BioMedGPT-LM 的跨模态学习模型,专为高级 ECG 分析设计。它有效连接了 ECG 数据和自然语言,通过模态对齐提升了 LLMs 的泛化能力。研究结合医学指南和患者特定信息扩充数据集,使 ECG-LM 能准确提取 ECG 关键特征、识别模式并提供个性化心血管疾病预警。在零样本任务,如 ECG 诊断、节律和形态分类及问答中,ECG-LM 表现出色,在实际医疗应用中潜力巨大,有望改善心血管护理,为患者和医疗专业人员提供更优质的服务。
伦理批准
本研究不涉及动物或人类参与者,也未在私人或保护区进行。