编辑推荐:
射血分数保留的心力衰竭(HFpEF)常存在识别不足的问题。研究人员开展 AI 模型(EchoGo Heart Failure v2)与现有临床评分(H2FPEF 和 HFA-PEFF)诊断性能对比研究。结果显示 AI 模型分类性能更高,整合 AI 与临床评分可改善诊断。该研究对优化 HFpEF 诊断意义重大。
心力衰竭(heart failure,HF)是全球范围内常见且危害严重的疾病,影响着约 5.62 亿人,其中约一半患者为射血分数保留的心力衰竭(heart failure with preserved ejection fraction,HFpEF)。然而,HFpEF 的诊断面临诸多挑战。一方面,其定义缺乏明确共识,诊断工具和临床路径复杂;另一方面,现有的超声心动图诊断存在局限性,多参数临床评分在面对不完整或不一致的数据时也表现不佳,约 30% 的患者经超声心动图评估后分类不明确,导致难以确定是否需要进一步诊断测试,这使得许多 HFpEF 患者无法得到及时准确的诊断和治疗。
为了解决这些问题,来自英国 Ultromics Ltd、美国贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)等机构的研究人员开展了一项研究。他们旨在对一种基于深度学习超声心动图的人工智能(artificial intelligence,AI)HFpEF 模型(EchoGo Heart Failure v2)进行外部验证,并与现有的多参数临床评分(H2FPEF 和 HFA-PEFF)进行比较,以评估其在复杂临床队列中的诊断性能和预后价值。该研究成果发表在《Nature Communications》上。
研究人员主要采用了以下关键技术方法:
- 数据收集:回顾性收集 2018 - 2022 年美国贝斯以色列女执事医疗中心接受经胸超声心动图(transthoracic echocardiogram,TTE)检查患者的数据,筛选出符合条件的 HFpEF 患者作为病例组(n=240),并匹配年龄、性别和 TTE 年份的非 HFpEF 患者作为对照组(n=256)。
- 模型评估:使用 AI HFpEF 模型、H2FPEF 评分和 HFA-PEFF 评分对患者进行评估,分析各模型的诊断性能(包括区分度、校准度、分类性能和临床效用)以及与患者预后(死亡率和 HF 住院率)的关联。
- 统计分析:运用多种统计方法,如 Students t 检验、Fisher 精确检验、DeLong 检验、Hosmer-Lemeshow 拟合优度检验、似然比检验等,对数据进行分析。
研究结果如下:
- 患者群体:病例组和对照组在年龄、性别分布上相似,但病例组在种族、体重指数(BMI)、合并症、实验室指标及药物使用等方面与对照组存在差异,且病例组收缩和舒张功能受损更明显。对照组也存在较高比例的心脏结构改变和生物标志物升高,代表了复杂的临床队列。
- 模型区分度和校准度:AI HFpEF 模型与 H2FPEF 评分的区分度相似(AI HFpEF 模型 AUROC 为 0.798,H2FPEF 评分为 0.788),校准结果也相近,但两者均存在风险高估的情况,且高估特点不同。
- 模型分类性能:与 H2FPEF 和 HFA-PEFF 评分相比,AI HFpEF 模型的中间分类更少,具有更高的敏感性和特异性。当仅考虑诊断输出时,H2FPEF 和 HFA-PEFF 评分的敏感性和特异性更高,但 AI HFpEF 模型在考虑中间分类时分类性能更优。
- 重新分类和附加信息:AI HFpEF 模型对 H2FPEF 和 HFA-PEFF 评分中间分类的患者重新分类,其连续概率输出提供了更多诊断信息。
- 临床效用:决策曲线分析表明,将 AI HFpEF 模型与临床评分整合用于临床管理决策,优于单独使用临床评分,能更准确地管理 HFpEF 患者,减少不必要治疗。
- 患者预后:AI HFpEF 模型诊断为阳性的患者,发生主要复合终点、死亡率和 HF 住院率的风险显著增加,且风险与模型的连续概率相关。
研究结论和讨论部分指出,AI HFpEF 模型在分类性能上优于现有临床评分,其连续输出为诊断过程增加了价值。将 AI 与临床评分信息整合到决策过程中,能提高 HFpEF 患者的识别率,减少诊断不确定性,确保高危人群得到及时适当的治疗。然而,该研究也存在局限性,如 HFpEF 综合征定义不明确、部分数据缺失、图像质量影响 AI 模型等。未来需要进一步研究以明确不同模型输出在临床实践中的应用,以及如何更好地整合多种诊断方法,同时要对 AI 模型进行更多的回顾性和前瞻性验证,以优化其在临床中的应用,最终改善 HFpEF 患者的管理和预后。