基于多模态多示例学习的心肺运动测试性能预测模型：利用易获取的超声与电子病历突破心力衰竭功能评估瓶颈

《npj Digital Medicine》：Multimodal multi-instance learning for cardiopulmonary exercise testing performance prediction

【字体：大中小】 时间：2026年03月04日 来源：npj Digital Medicine 15.1

编辑推荐：

　　心力衰竭是进展性致命疾病，其功能评估金标准心肺运动测试存在应用限制。为解决此问题，研究人员开展了一项多模态多示例学习研究，旨在利用更易获得的经胸超声心动图与电子健康记录，预测关键指标峰值摄氧量。模型显著提升了预测精度与泛化能力，R2达0.603，在高危患者识别中AUROC达0.849，外部验证表现亦超越既往工作。这有助于更准确地识别可能从高级心衰治疗中获益的患者。

心脏，这个时刻跳动的生命引擎，一旦“动力”衰竭，便意味着严峻的健康危机。心力衰竭（HF, Heart Failure）正是一种渐进性且致命的疾病，仅在美国就影响着近700万人，而预计到2040年，其患病人数将突破1000万大关。面对如此庞大的患者群体，如何准确评估他们的心脏功能、预测疾病走向并指导精准治疗，是临床医生面临的巨大挑战。目前，心肺运动测试（CPET, Cardiopulmonary Exercise Testing）被视为评估心衰患者功能储备和预测生存结局的“金标准”，其中，患者在运动过程中达到的峰值摄氧量（peak VO₂）是最为关键的指标。然而，这项测试并非“唾手可得”，它需要复杂的设备、专业的操作团队以及患者能够耐受一定强度的运动，这些“实际限制”使其难以广泛应用于日常临床实践。那么，能否找到一条“捷径”，利用临床上更常规、更易获取的检查数据，来“推算”出这项金标准的结果，从而突破评估瓶颈，让更多患者受益呢？这就是本篇发表在《npj Digital Medicine》上的研究想要回答的核心问题。

为了解决传统CPET应用受限的难题，由M. B. A. 等人开展的研究，独辟蹊径地将目光投向了临床中更为普及的检查——经胸超声心动图（TTE, Transthoracic Echocardiography）和记录患者全方位信息的电子健康记录（EHR, Electronic Health Record）。他们创新性地提出了一个多模态多示例学习框架。这个框架的聪明之处在于两点：第一，它能够融合来自不同“模态”的数据——即TTE的图像信息和EHR的结构化文本/数值信息，让模型从多角度综合“会诊”；第二，它巧妙地处理了TTE数据自身的特性。一次TTE检查通常包含多个心脏循环的动态图像（即多个“实例”），但最终用于预测的标签（如peak VO₂）是针对整个检查（即整个“包”）的。多示例学习正擅长处理这种“包-标签”的学习任务。通过建模这种跨模态的交互以及TTE研究内部的多元示例结构，研究人员构建了一个强大的预测模型。

本研究主要采用了回顾性队列分析的研究方法。研究队列的构建基于大规模的真实世界电子健康记录系统。关键技术方法包括：1）多模态数据整合：从EHR中提取结构化临床特征，并从TTE超声视频中通过预训练模型提取深度图像特征，将两者作为异构数据源。2）多示例学习架构：针对每次TTE检查包含的多个心动周期视频片段（即多个实例），设计专门的网络模块（如基于注意力机制的池化层）来聚合这些实例的信息，形成该次检查的整体表征。3）跨模态交互建模：通过设计融合模块（如交叉注意力机制、特征拼接与全连接层），实现EHR临床特征与TTE图像特征之间的深层信息交互与互补。4）端到端模型训练与验证：使用内部队列数据训练模型，以CPET测得的真实peak VO₂作为回归目标，并以识别高危患者（如peak VO₂≤14 mL/kg/min）作为分类任务进行优化，随后在独立的外部验证队列中评估模型的泛化性能。

模型开发与性能表现

研究人员在内部开发队列上训练了他们的多模态多示例学习模型。结果显示，在预测peak VO₂的回归任务上，该模型取得了决定系数（R2）为0.603的优秀成绩，显著优于之前仅使用EHR数据的最佳工作（R2 = 0.529）。在识别高风险的候选者（定义为peak VO₂≤14 mL/kg/min）这一分类任务上，模型的受试者工作特征曲线下面积（AUROC）达到了0.849，同样超越了之前0.836的水平。这表明，融合TTE图像信息并利用其多实例结构，确实极大地提升了预测的准确性。

外部验证与泛化能力

一个模型是否真正可靠，关键在于它在“陌生”数据上的表现。研究团队在一个独立的外部验证队列中对该模型进行了测试。结果令人鼓舞：模型预测peak VO₂的R2为0.541，远高于先前工作在同一外部队列上0.395的表现；在高危患者识别方面，AUROC更是达到了0.870，相比之前的0.797有了显著提升。这有力地证明了该模型具有良好的泛化能力，能够适用于不同机构来源的数据。

模型决策的可解释性分析

为了让临床医生理解和信任模型的预测，研究还进行了一定的可解释性分析。通过可视化技术，研究人员展示了模型在做出预测时，更关注TTE视频中的哪些关键帧（实例），以及哪些EHR临床特征起到了更重要的作用。这有助于将“黑箱”模型的决策过程部分透明化，增加其临床应用的可行性。

临床效用评估

研究的最终目的是服务临床。通过模型识别出的高风险患者群体，研究人员模拟了其在指导治疗方面的潜在价值。分析表明，改进后的模型能够更准确地识别出那些可能从高级心衰治疗（如心脏机械循环支持装置或移植评估）中获益的患者，而这些患者如果仅依靠传统方法或旧模型，存在被遗漏的风险。

本研究成功开发并验证了一个基于多模态（TTE+EHR）与多示例学习的人工智能框架，用于预测心衰患者的峰值摄氧量（peak VO₂）。该模型不仅在学习阶段表现出超越既往方法的精度（内部测试R2=0.603，AUROC=0.849），在独立的外部验证中也展现了卓越的稳健性与泛化能力（R2=0.541，AUROC=0.870）。这项工作的重要意义在于，它绕过了心肺运动测试（CPET）在实际应用中的诸多限制，提供了一种仅利用常规、易获取的临床数据（超声心动图和电子病历）来无创、高效评估患者功能容量和风险等级的新途径。模型性能的提升直接转化为临床决策潜力的增强，使得更精准地筛选出需要积极干预和高阶治疗的高危心衰患者成为可能，从而有望优化医疗资源配置，改善患者预后。该研究为将人工智能深度整合到心衰的日常管理与精准医疗中，提供了一个强有力的范式。

热点排行

新闻专题