深度学习自动化流程:精准评估经胸超声心动图中的三尖瓣反流

【字体: 时间:2025年04月17日 来源:JAMA Cardiology 14.7

编辑推荐:

  本研究开发了一种深度学习计算机视觉工作流程(EchoNet - TR),用于识别彩色多普勒超声心动图视频并评估三尖瓣反流(TR)严重程度。在不同测试队列中,该流程表现出色,能有效检测临床显著的 TR,为超声心动图人工智能辅助工作提供了基础。

  ### 研究背景
三尖瓣反流(TR)以往被视为共存心脏病的良性后果,但如今已被确认为发病率和死亡率的独立危险因素。经胸超声心动图(TTE)是评估 TR 的常用方法,不过其诊断依赖专家评估,存在观察者间的显著差异。随着计算机视觉和人工智能(AI)技术的发展,其在心脏超声结构和功能的精准表型分析中取得了进展,但在 TR 评估方面的应用仍相对滞后。本研究旨在开发并评估一种深度学习流程,用于从 TTE 研究中检测和评估 TR 严重程度。

研究方法


  1. 研究人群和数据源
    • 西达赛奈医疗中心(Cedars - Sinai Medical Center,CSMC)队列:使用 2011 年 10 月 4 日至 2021 年 12 月 31 日期间 CSMC 的 TTE 研究数据来训练深度学习流程(EchoNet - TR)。这些研究最初来源于数字成像和通信医学(DICOM)文件,经过去识别、视图分类和预处理转换为 AVI 文件。从 47312 项研究(涉及 31708 名患者)的 2079898 个视频中,手动挑选出 57701 个经三尖瓣彩色多普勒的心尖四腔(A4C)视频,用于训练 TR 表型分析的深度学习流程。研究在患者层面随机分为训练组(95%)和内部验证组(5%),并在 2022 年 1 月 1 日至 6 月 4 日期间对 2462 项 TTE 研究(101455 个视频,来自 2170 名患者)的时间独立测试集上评估训练好的模型。
    • 斯坦福医疗保健(Stanford Healthcare,SHC)队列:使用 SHC 高容量超声心动图实验室的 5549 项研究(共 278377 个视频)评估该流程。将自动视图分类流程与手动筛选视频进行比较以评估特异性,所有视图分类器识别的视频用于下游 TR 严重程度模型的验证,并将模型输出与专家心脏病学家根据临床报告确定的 TR 严重程度进行比较。

  2. AI 模型训练
    模型流程包括一个能够从完整超声心动图研究中检测经三尖瓣彩色多普勒 A4C 视频的视图分类器和一个 TR 严重程度分类模型。使用 PyTorch Lightning 深度学习框架,基于 R (2 + 1) D 架构的视频卷积神经网络进行视图分类和 TR 严重程度评估。视图分类模型用随机权重初始化,TR 严重程度模型用 EchoNet - Dynamic 的权重初始化。两个模型均使用交叉熵损失函数,在 NVIDIA GeForce RTX 3090 图形处理单元上训练 100 个 epoch,采用 Adam 优化器,初始学习率为 1e - 2,批量大小为 24,根据验证损失进行早停。视图分类器训练时,将 57701 个手动挑选的经三尖瓣彩色多普勒 A4C 视频作为病例,同一研究中的 421679 个其他视频作为对照;TR 严重程度模型训练时,使用 57701 个手动挑选的视频,包括 14318 个无 TR、16507 个轻度 TR、19820 个中度 TR 和 7056 个重度 TR 的视频,TR 严重程度根据 CSMC 高容量超声心动图实验室的临床超声心动图报告确定。
  3. 统计分析
    在模型训练未见过的两个测试集上评估流程:2022 年在 CSMC 获得的 2462 项研究和 2018 年在 SHC 获得的 5549 项研究。使用混淆矩阵和受试者工作特征曲线下面积(AUC)评估模型性能,在研究层面计算与 TR 模型性能相关的统计数据。当研究中有多个经三尖瓣多普勒信息的 A4C 视频时,整合视频预测结果,取预测 TR 严重程度最高的视频进行分析;若多个视频预测严重程度相同,则取预测概率最高的视频。在内部和外部测试集中,计算临床显著 TR(定义为中重度或重度 TR)的 AUC、F1 分数、召回率(敏感性)、阳性预测值(PPV)和阴性预测值(NPV),并在 CSMC 测试队列的相关子集中计算 AUC。通过 10000 次抽样的自助法计算置信区间。进行亚组分析以评估模型在不同右心室和左心室射血分数(LVEF)范围、肺动脉压、相关合并症、研究特征和其他临床特征患者中的性能。临床医生根据临床报告确定超声心动图研究质量,将存在技术困难、研究质量差或主要心脏结构未清晰显示的研究分类为技术困难。
  4. 错误模式分析
    评估被误分类 1 级的 TTE,分析误分类原因。对于分类不足的 TTE,查看自由文本 TTE 报告是否提及 TR 的中间类别;对于分类过度的 TTE,比较其与正确分类的 TTE 在右心室收缩压(RVSP)和右心房或右心室(RA/RV)压力梯度的差异,使用 Mann - Whitney U 检验比较连续变量的均值差异。
  5. 模型可解释性
    使用综合梯度法生成显著性映射,评估 TR 严重程度模型识别的特征。该方法为视频的每一帧生成热图,最终汇总为二维热图,热图中亮度更高、更接近黄色的像素对模型预测更显著,颜色较深的像素对模型最终预测不太重要。对于无 TR 的视频,通过取中度和重度类别输出神经元的显著性映射的最大值获得热图。
  6. 与心脏磁共振成像的比较
    评估模型预测、TTE 标签和磁共振成像(MRI)标签之间的一致性。确定 572 名未在训练或验证集中的 CSMC 患者作为测试集,这些患者在心脏 MRI 评估 TR 的 180 天内至少接受了 1 次超声心动图研究。当患者在 180 天内有多次 TTE 时,选取与 MRI 时间最接近的 TTE 进行分析。MRI 标签从临床报告中提取,报告中对高水平 TR 进行定量评估,对低水平 TR 进行定性评估。

研究结果


  1. 研究人群:CSMC 训练、验证和测试集的患者特征相似,而 CSMC 和 SHC 测试队列存在差异。SHC 测试队列中中度 TR(5.0% vs 25.0%)和重度 TR(4.4% vs 10.0%)的研究数量较少,且该队列中黑人患者的视频比例较低(4.5% vs 14.5%),亚洲患者的视频比例较高(25.2% vs 9.8%)。
  2. 视图分类器性能:在 CSMC 未用于模型训练的 2462 项 TTE(101415 个视频)测试集中,视图分类器的 AUC 为 1.000(95% CI,0.999 - 1.000),在阈值为 0.800 时,能在 2410 项研究中识别出经三尖瓣彩色多普勒的 A4C 视频,敏感性为 0.979(95% CI,0.973 - 0.985),特异性为 1.000(95% CI,1.000 - 1.000)。在 SHC 的 5549 项研究(278377 个视频)外部验证集中,视图分类器在 5268 项研究中至少识别出 1 个经三尖瓣彩色多普勒的 A4C 视频,敏感性为 0.949(95% CI,0.944 - 0.955),特异性为 1.000(95% CI,0.999 - 1.000)。
  3. TR 严重程度模型性能:TR 严重程度模型在 TR 检测中表现出色。在时间独立的 CSMC 测试集中,检测至少中度 TR(定义为中度或重度 TR)的 AUC 为 0.928(95% CI,0.913 - 0.943),检测重度 TR 的 AUC 为 0.956(95% CI,0.940 - 0.969),排除重度 TR 的 NPV 为 0.966(95% CI,0.955 - 0.977),排除至少中度 TR 的 NPV 为 0.893(95% CI,0.871 - 0.914)。在 2018 年 SHC 队列中,识别重度 TR 的 AUC 为 0.980(95% CI,0.966 - 0.989),识别至少中度 TR 的 AUC 为 0.951(95% CI,0.938 - 0.962),排除重度 TR 的 NPV 为 0.987(95% CI,0.982 - 0.991),排除至少中度 TR 的 NPV 为 0.994(95% CI,0.990 - 0.997)。
  4. 子集分析:TR 严重程度模型在不同测试集亚组中表现良好。在右心室功能正常、轻度降低或中重度降低的研究中,检测中度或重度 TR 的 AUC 分别为 0.923(95% CI,0.902 - 0.942)、0.904(95% CI,0.847 - 0.951)和 0.861(95% CI,0.848 - 0.952);检测重度 TR 的 AUC 分别为 0.962(95% CI,0.940 - 0.979)、0.924(95% CI,0.872 - 0.966)和 0.882(95% CI,0.873 - 0.966)。在不同 LVEF 范围、有房颤病史、右心房扩张和并存左侧瓣膜性心脏病的患者研究中,模型性能相似。
  5. MRI 比较:模型预测的 TR 严重程度与心脏磁共振(CMR)成像评估的结果在中度或重度 TR(AUC:0.896 [95% CI,0.822 - 0.948])和重度 TR(AUC:0.949 [95% CI,0.845 - 0.999])方面具有较强的一致性。同时,心脏病专家根据超声心动图研究确定的 TR 严重程度与根据 MRI 确定的结果在中度或重度 TR(0.820 [95% CI,0.686 - 0.966])和重度 TR(0.841 [95% CI,0.480 - 0.997])方面也具有一致性。但 AI 模型预测与心脏病专家基于超声心动图预测相比,在至少中度 TR 方面,AUC 差异显著(DeLong 测试,0.885 vs 0.814;P = 0.02),在重度 TR 方面差异不显著(DeLong 测试,0.849 vs 0.948;P = 0.13)。
  6. 错误模式分析:被误分类 1 级的中度和重度 TTE 中,最常见的是轻度到中度(84.17%)或中度到重度(68.66%)。分类过度的 TTE 中,有记录 RA/RV 压力梯度的,其平均(SD)RA/RV 压力梯度显著高于正确分类的无 TR(21.75 [8.72] vs 19.44 [13.44];P < 0.01)和轻度 TR(30.35 [9.10] vs 26.96 [14.36];P < 0.001)的 TTE。在 RVSP 方面也有类似结果。
  7. 模型可解释性:综合梯度法生成的显著性映射表明,TR 的临床相关成像特征对模型预测很重要,激活信号主要定位在彩色多普勒窗口的像素上,突出显示 TR 射流,说明模型使用了适当的 TR 生理特征进行预测。

研究讨论


本研究开发的自动化流程能从完整超声心动图研究中有效表征 TR。在不同测试队列中,该 AI 自动化流程在识别严重和至少中度 TR 病例方面表现出色,EchoNet - TR 算法在不同地理位置的大量研究中具有良好的泛化性能,有助于临床显著 TR 的筛查。然而,研究也存在一些局限性。在 SHC 队列中,至少中度 TR 的 PPV 较低,可能是由于该队列中此类病例的患病率较低;模型在区分轻度 TR 和无 TR 时存在较高的错误分类率,导致加权 Cohen κ 和精确准确率较低。此外,EchoNet - TR 基于临床医生评估的 TR 严重程度进行训练,可能会传播观察者间的变异性。在右心室功能方面,模型误分类的研究显示出 RA/RV 压力梯度和 RVSP 的差异,提<
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号