人工智能与临床医生评估的左心室收缩功能超声测量可重复性比较:一项系统性评价与荟萃分析
《European Heart Journal - Digital Health》:Reproducibility of Echocardiographic Measurements of Left Ventricular Systolic Function: A Systematic Review and Meta-Analysis Comparing Artificial Intelligence and Clinician Estimates
【字体:
大
中
小
】
时间:2025年12月13日
来源:European Heart Journal - Digital Health 4.4
编辑推荐:
本研究针对超声心动图测量变异性影响心血管疾病诊疗决策的临床难题,系统评价了人工智能(AI)与临床医生对左心室射血分数(EF)和整体纵向应变(GLS)测量的可重复性。通过对19项研究(17,984例参与者)的荟萃分析发现,AI衍生的GLS和3D EF测量可重复性达到或超过临床医生水平,但2D EF测量在关键临床阈值附近仍存在重新分类风险。该研究为AI在心脏影像标准化应用提供了重要证据支持,发表于《European Heart Journal - Digital Health》。
心血管疾病(CVD)是全球死亡的首要原因,每年导致1800万人死亡。到2050年,全球CVD负担预计将大幅增加,患病率增长90%,残疾调整生命年增加55%,死亡率上升73%。这一预测对包括超声心动图在内的CVD诊断成像服务提出了更高需求。
作为临床心脏病学的基石,超声心动图在决策中不可或缺,但也有其局限性。手动或半自动图像分析容易受到观察者内和观察者间变异性的影响,且耗时较长。此外,它需要高度专业化的技术人员。全球范围内,超声心动图服务的压力日益增大,英国国家层面数据显示,每年约有170万次超声心动图检查需求,已超过当前服务容量。
因此,人工智能(AI)在这一领域的应用受到越来越多关注。AI在超声心动图中展现出潜力,包括提高诊断准确性、操作效率、成本效益和改善可重复性。通过减少因操作者专业知识、患者解剖结构和设备差异引入的变异性,AI可能有助于提高超声心动图测量的一致性。
然而,尽管AI可能提供比手动测量更一致和可重复的替代方案,但其融入临床实践仍面临挑战。障碍包括临床医生的抵触、伦理问题以及与现有临床工作流程的兼容性。因此,本系统性评价旨在确定使用AI获得的左心室功能超声心动图测量值与临床医生计算的测量值相比的可重复性。
这项研究采用了系统性评价和荟萃分析的方法,严格遵循PRISMA 2020报告指南。研究团队检索了从建库至2025年5月的Medline、Embase、Web of Science和CENTRAL数据库,重点关注评估AI衍生的EF和/或GLS可重复性的同行评审研究。研究质量使用医学影像人工智能清单(CLAIM)进行评估。通过随机效应模型对组内相关系数(ICC)和Bland-Altman分析结果进行荟萃分析,比较AI和临床医生衍生测量值的可重复性。
研究团队通过系统性文献检索筛选出19项符合条件的研究,涉及17,984名参与者。使用CLAIM工具评估研究质量,平均得分为72.9%。采用随机效应模型对ICC和Bland-Altman界限进行荟萃分析,计算了平均绝对差(MAD)和平均绝对百分比差(MAPD),以临床相关阈值为背景评估测量变异性。
在二维经胸超声心动图(2D TTE)方面,十项研究报告了EF的ICC值。虽然AI特异性数据有限,但报告的AI ICC(0.92)超过了人工组内观察者(0.88)和组间观察者(0.83)的一致性。Bland-Altman分析显示,AI衍生的EF值普遍低于临床医生,合并偏差为-1.4%。合并的一致性界限较宽,为-13.44%至+12.7%,表明AI衍生的EF测量存在显著变异性。平均绝对差(MAD)为5.17%,在35%的治疗阈值处对应的平均绝对百分比差(MAPD)为14.8%。
三维经胸超声心动图(3D TTE)方面,EF测量显示合并偏差较小(-0.58%),一致性界限略窄(-11.26%至12.61%),表明3D TTE在一致性方面略有改善。MAD为5.27%,与2D TTE几乎相同。
在临床决策阈值附近的评估显示,AI和临床医生评估之间的变异性可能导致患者重新分类,特别是在2D EF测量中。
AI衍生的GLS表现出高精度,合并ICC为0.81,与人工组内观察者ICC(0.85)相当,但优于人工组间观察者ICC(0.75)。Bland-Altman分析显示合并偏差为-0.80%,一致性界限较窄(-4.30%至+2.30%)。MAD为1.32%,在20%的正常GLS阈值处对应的MAPD为6.61%。
本研究结果表明,AI衍生的2D TTE图像的GLS和3D TTE图像的EF具有可重复性。AI衍生的EF和GLS的组内相关系数(ICC)均较高,且均超过人类观察者间的一致性。虽然GLS的人工组内观察者ICC略高于AI衍生的ICC,但重叠且更窄的置信区间表明,AI有潜力至少达到单个训练有素的操作员所期望的一致性水平。
研究发现具有重要的临床意义。临床医生2D EF测量中观察到的显著变异性可能产生深远的临床影响。EF是许多药物和器械治疗的"守门员",任何EF测量误差都可能影响临床决策。AI衍生的GLS表现出高精度,一致性界限狭窄,优于临床医生的观察者间变异性。这种更高程度的可重复性特别令人鼓舞,因为GLS作为亚临床心肌功能障碍早期检测标志物的依赖日益增加,特别是在接受蒽环类或曲妥珠单抗等心脏毒性化疗的患者中。
尽管AI前景广阔,但仍需承认若干局限性。超声心动图图像在不同超声机和制造商之间,以及图像分析软件包之间存在显著差异。虽然AI算法可以标准化解释以减少图像分析过程中引入的变异性,但它们尚不能克服供应商之间原始图像采集的根本差异。
未来研究应侧重于在不同人群、机构和供应商设备上对AI模型进行外部验证。需要开发方法减轻潜在性别偏见并促进算法训练中的公平性。然而,发布AI系统结果只是临床转化的第一步。下一步需要证明患者预后的改善并确定成本效益。监管批准、前瞻性临床验证和融入现有工作流程仍然是重大挑战。
综上所述,AI衍生的GLS,以及在较小程度上的3D EF,表现出与临床医生相当或更优的可重复性,使GLS成为临床AI应用最可靠的切入点。由于2D EF变异性较大,可能影响可重复性并导致临床决策不一致,因此需要谨慎解读。大规模真实世界验证对于确认普适性仍然至关重要。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号