《Cardiology Research and Practice》:Artificial Intelligence–Enhanced Electrocardiography for the Diagnosis of Heart Failure With Preserved Ejection Fraction: A Systematic Review and Meta-Analysis
编辑推荐:
背景
射血分数保留型心力衰竭(HFpEF)约占全部心力衰竭的50%,随着人口老龄化及多病共存负担加重,其患病率持续上升。HFpEF的诊断仍然具有挑战性,通常需要超声心动图、生物标志物以及在部分情况下进行有创血流动力学评估等多模态检测。将人工智能(AI)应用
背景
射血分数保留型心力衰竭(HFpEF)约占全部心力衰竭的50%,随着人口老龄化及多病共存负担加重,其患病率持续上升。HFpEF的诊断仍然具有挑战性,通常需要超声心动图、生物标志物以及在部分情况下进行有创血流动力学评估等多模态检测。将人工智能(AI)应用于心电图(ECG)的人工智能心电图(AI-ECG),可通过提取超出人类视觉判读范围的潜在模式,为HFpEF检测提供一种低成本且可扩展的手段。
方法
研究人员依照系统评价和Meta分析优先报告条目(PRISMA)开展系统评价与Meta分析,并在国际系统评价前瞻性注册平台(PROSPERO)完成前瞻性注册。研究人员检索了PubMed、Embase、Web of Science和IEEE Xplore数据库,截至2025年8月1日,纳入评估将AI/机器学习(ML)模型应用于ECG以诊断HFpEF或左心室舒张功能障碍(LVDD)的研究。符合条件的研究需报告相对于公认参考标准的诊断性能。偏倚风险采用QUADAS-AI工具评估。受试者工作特征曲线下面积(AUROC)采用logit转换后,在随机效应模型下进行合并,并对结果进行反向转换以增强可解释性。
结果
共10项研究(2021—2025年)符合纳入标准,涵盖超过270,000名参与者,涉及多样化人群。其中7项研究提供了足够的合并分析数据,贡献11个独立队列。合并AUROC为0.84(95%置信区间(CI)0.78–0.88),提示具有良好的判别能力,但异质性极高(I2=100%)。另有3项研究报告了诊断指标,但未提供AUROC方差,因此采用叙述性综合。多个领域的偏倚风险为中度至高度,主要由选择性队列、参考标准不一致及报告不完整所致。
结论
AI-ECG在HFpEF检出方面显示出应用前景,但当前证据基础仍以回顾性研究为主,方法学异质性明显,并受到参考标准差异及外部验证不足的限制。迄今尚无前瞻性、基于结局的研究证实其临床效用,且其真实世界实施效果仍未得到检验。
该文发表于《Cardiology Research and Practice》,是一篇聚焦人工智能增强心电图(AI-ECG)诊断射血分数保留型心力衰竭(HFpEF)的系统评价与Meta分析。研究背景在于,HFpEF已成为全球心力衰竭负担的重要组成部分,约占全部心力衰竭病例的一半。随着人口老龄化以及肥胖、高血压、糖尿病和慢性肾脏病等合并症增加,HFpEF患病率持续上升。与射血分数降低型心力衰竭(HFrEF)不同,HFpEF难以仅凭单一检查明确诊断,通常需要结合症状体征、利钠肽、生物标志物、超声心动图舒张功能指标,必要时还需有创血流动力学检测。现有诊断路径资源消耗大、可及性不均,且在社区和基层医疗环境中易出现漏诊与延迟诊断。因此,价格低廉、普及广泛且常规获取的12导联心电图(ECG)若能借助人工智能技术识别潜在电生理模式,将可能成为HFpEF早期识别和分诊的重要工具。研究人员开展本研究,正是为了系统评估AI-ECG在HFpEF检测中的诊断潜力,明确其总体判别能力、方法学局限与未来转化路径。
研究人员依据PRISMA规范完成系统评价,并在PROSPERO注册。检索PubMed、Embase、Web of Science和IEEE Xplore截至2025年8月1日的文献,纳入将AI或机器学习(ML)应用于ECG、用于诊断HFpEF或左心室舒张功能障碍(LVDD)的原始研究,并要求报告相对于参考标准的诊断性能。最终纳入10项研究,其中7项研究的11个独立队列进入Meta分析。综合结果显示,AI-ECG总体合并AUROC为0.84,提示其具有较好的整体判别能力,但研究间异质性极高。研究人员据此得出结论:AI-ECG虽显示出用于HFpEF检测的前景,但当前证据仍不足以支持常规临床应用,原因在于研究设计多为回顾性、参考标准不统一、偏倚风险较高、外部验证不足,且缺乏前瞻性、基于临床结局的真实世界研究。这一结论的重要意义在于,它既确认了AI-ECG作为低成本筛查或分诊工具的潜在价值,也明确指出现阶段距离临床实施仍存在关键证据缺口。
研究所用关键技术方法主要包括以下几类:其一,基于PICO框架制定纳排标准并进行系统文献检索与双评审筛选;其二,采用QUADAS-AI工具评估AI诊断研究的偏倚风险与适用性;其三,对可提取方差的AUROC进行logit转换,并在随机效应模型下完成Meta分析,同时用I
2统计量评估异质性;其四,对无法纳入定量合并的研究进行叙述性综合。样本来源覆盖亚洲、欧洲和北美的医院队列、多中心数据库、军事体检项目以及部分有创导管检查人群。
在研究结果部分,论文首先在“3.1 研究筛选与特征”中指出,共纳入10项发表于2021—2025年的研究,样本量差异极大,从不足200例到超过270,000例不等。受试人群既包括高度选择性的有创血流动力学队列、军事男性体检队列和病例对照样本,也包括大型连续住院或门诊数据库。多数研究使用标准12导联ECG,少数研究纳入单导联或简化导联模式。参考标准强度差异明显,有创血流动力学指标如左心室舒张末压(LVEDP)或平均肺毛细血管楔压(mPCWP)证据强度较高,指南一致的超声心动图定义次之,而基于国际疾病分类(ICD)编码或简化症状加保留射血分数定义的方法则更易出现误分类。
在“3.2 AI/ML模型特征”中,研究人员总结了所纳入模型的输入、结构与验证策略。输入既包括原始ECG波形,也包括人工提取特征,有些模型加入年龄、性别、体重和身高等临床变量。模型架构以深度学习(DL)为主,包括卷积神经网络(CNN)、残差网络(ResNet)、CNN–长短期记忆网络(CNN–LSTM)等;早期研究更多采用k近邻(k-NN)、随机森林(RF)、支持向量机(SVM)和梯度提升决策树(GBDT)等传统机器学习方法。训练规模差异显著,小型探索性研究仅纳入61名受试者,而大型注册数据库研究则使用超过100万份ECG。部分研究进行了独立外部验证,部分仅采用内部划分或单中心测试,提示证据稳健性并不一致。
在“3.3 模型性能”中,各研究验证队列报告的AUROC大致在0.73至0.92之间,多数集中于0.80–0.90范围,提示总体具有较好的判别能力。若报告了敏感度和特异度,两者多在70%–85%之间平衡。一些大型研究还观察到预后相关性,例如AI-ECG阳性预测与心力衰竭住院和死亡风险升高相关。相对地,小样本概念验证研究有时报告极高甚至近乎完美的性能,但缺乏置信区间或外部验证,提示存在过拟合风险。此外,各研究对校准度、精确率-召回率分析和临床阈值的报告不一致,且没有纳入研究进行正式校准评估。
在“3.4 定量综合(Meta分析)”中,7项研究的11个独立队列被纳入合并分析。随机效应模型显示合并AUROC为0.84(95%CI 0.78–0.88),表明AI-ECG对HFpEF检测具有良好的总体判别效能。但I
2达到100%,说明异质性极高。研究人员指出,这种异质性主要来源于研究对象、参考标准、模型架构和验证策略差异。有创血流动力学定义的研究通常报告更高判别能力,而依赖保留射血分数加行政编码等实用性定义的研究表现相对较弱。外部验证中性能下降的情况也较常见,反映出跨场景可重复性仍是挑战。
在“3.5 叙述性综合”中,3项未纳入Meta分析的研究提供了补充信息。Gao等采用CNN–LSTM模型并以有创LVEDP作为参考标准,敏感度和特异度较为均衡,但未报告AUROC及其方差。Kavas等基于3导联ECG和传统分类器进行病例对照研究,尽管报告较高准确率,但HFpEF定义较为简化,且缺乏稳健验证。Kuznetsova等则探索了智能手机单导联ECG和四参数频谱规则用于LVDD筛查,在开发集中报告了AUROC,但验证部分信息不足。上述研究提示,非标准ECG设备与简化导联方案具有可扩展潜力,但证据基础仍较薄弱。
在“3.6 不同ECG模式下的性能”中,标准12导联ECG构成目前最主要、证据最充分的研究基础,整体表现优于或不劣于减少导联方案。单导联或简化导联方法虽具有可推广性优势,但诊断性能更不稳定,且依据的研究数量较少、样本更小,方法学限制更明显,因此当前临床适用性证据不足。
在“3.7 偏倚风险”中,QUADAS-AI评估显示纳入研究偏倚风险差异较大。最常见问题出现在患者选择方面,如病例对照设计、高度选择性导管检查人群或年轻军事男性样本均限制了结果外推。参考标准从指南一致的超声心动图或有创血流动力学,到简化定义和ICD编码不等,后者显著增加误分类风险。AI特异性方法学问题亦较普遍,包括是否对参考标准盲法判读未充分报告、小样本研究易过拟合、重复随机拆分可能造成数据泄漏、缺乏外部验证以及决策阈值和置信区间报告不足等。尤其是那些在无外部验证前提下报告极高性能的研究,更需要谨慎解读。
讨论部分强调,本研究是首个针对AI-ECG检测HFpEF的合并评估,证实该技术具有一定诊断潜力,但极高异质性显著限制了合并结果的稳定性和泛化性。HFpEF本身诊断复杂,决定了AI-ECG若能成功识别潜在模式,将在早期筛查和分诊中具有吸引力。然而,现有证据存在多重限制:不同研究采用的参考标准并不等价,部分研究依赖LVDD替代终点、复合评分或行政编码,可能高估性能;大量研究仅报告AUROC,而缺乏校准度和临床决策实用性指标;外部验证不足,且一旦进行外部验证,模型性能常出现衰减,说明真实世界效能可能低于汇总估计值。研究人员据此指出,未来研究应采用与国际指南一致的HFpEF定义,纳入更具代表性且包含常见合并症的人群,在不同卫生系统中实施稳健外部验证,并规范报告AUROC置信区间、校准度和临床阈值,同时开展前瞻性实施研究,以明确AI-ECG能否作为筛查或分诊工具融入临床路径。
研究结论部分可译为:人工智能增强心电图(AI-ECG)为HFpEF这一持续面临重大诊断挑战的疾病提供了一种有前景且可扩展的检测路径。现有证据提示其具有良好的判别性能,而ECG的广泛可及性也为更早识别疾病并更精准地引导后续检查提供了独特机会。然而,当前证据主要来自回顾性、单中心研究,存在显著方法学异质性、较高偏倚风险以及参考标准临床效度不一等问题。更重要的是,尚无前瞻性、基于临床结局的研究证明其能够改善患者结局,也未在真实世界临床路径中完成评估。因此,其作为筛查或分诊工具的角色仍不确定,现阶段尚不能推荐用于常规临床实践。随着进一步开发与验证,AI-ECG未来有望促进HFpEF的更早识别、增强风险分层能力,并帮助弥补当代心力衰竭诊疗中的重要诊断缺口。