综述：人工智能评估三尖瓣反流的诊断效能：系统综述与Meta分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Clinical Cardiology》：“Diagnostic Performance of Artificial Intelligence in Evaluating Tricuspid Regurgitation: A Systematic Review and Meta-Analysis”

【字体：大中小】 时间：2026年06月09日 来源：Clinical Cardiology 2.3

编辑推荐：

　　摘要背景三尖瓣反流（TR）是一种常见的心脏瓣膜病，在成人中的患病率为0.55%–1.6%，在75岁以上人群中升高至5%–8%，且常继发于左心病变或肺动脉高压。中度至重度TR可独立预测死亡率和心力衰竭住院风险

摘要

背景
三尖瓣反流（TR）是一种常见的心脏瓣膜病，在成人中的患病率为0.55%–1.6%，在75岁以上人群中升高至5%–8%，且常继发于左心病变或肺动脉高压。中度至重度TR可独立预测死亡率和心力衰竭住院风险，但由于超声心动图检查具有操作者依赖性且存在较大变异性，漏诊现象仍然持续存在。人工智能（AI）包括机器学习（ML）和深度学习（DL），有望通过自动化检测提升敏感性和可重复性。本系统综述与Meta分析综合了AI基于超声心动图或其他替代性模态诊断TR的证据。

方法
研究遵循系统综述与Meta分析优先报告条目（PRISMA）指南，在不限制语言的前提下，检索PubMed、Embase、Scopus、Web of Science和EBSCO数据库，自建库至2025年8月。纳入标准依据PICOS框架：接受TR评估的成人；AI/ML作为指标试验；临床医师判读的超声心动图作为参考标准；结局指标包括受试者工作特征曲线下面积（AUROC）、敏感度和特异度。由两名评审者完成数据提取和质量评价；采用随机效应Meta分析合并效应量；以I²评估异质性；证据确定性依据GRADE进行分级。

结果
共纳入8项研究。TR检出的合并AUROC为0.89（95%置信区间[CI]：0.86–0.92）。基于超声心动图的模型敏感度为0.87（95% CI：0.81–0.90），特异度为0.88（95% CI：0.73–0.95），AUROC为0.92（95% CI：0.89–0.94）；基于心电图（ECG）的模型AUROC为0.805。显著异质性（I²＞90%）主要来源于成像模态及参考标准差异；由于回顾性研究设计及外部验证有限，GRADE证据确定性为中等。

结论
AI在TR诊断中表现出有前景的准确性，可能有助于实现早期检出与分诊流程的标准化。然而，现有研究的异质性和方法学缺口提示，仍需更大规模、前瞻性、多中心研究，并采用标准化报告框架（如TRIPOD-AI）以证实其临床应用价值。

1 引言

三尖瓣反流（TR）是一种常见但经常被漏诊的瓣膜性心脏病，多继发于左心系统病变、肺动脉高压或心房颤动。流行病学资料显示，其患病率存在明显地域差异，并且相关死亡率近年来呈上升趋势。该病在女性中更常见，常合并心力衰竭或肺动脉高压；既往研究还提示，永久性起搏器植入，尤其是右心室心尖部电极定位，可因机械性瓣叶干扰、右心室几何构型改变及起搏诱导的不同步而促进TR发生或进展。当前经胸或经食管超声心动图仍是主要诊断手段，但轻度或隐匿性反流束易受图像质量、右心血流多普勒信号较弱、操作者经验差异及观察者间一致性不足等因素影响，导致临床识别不足。随着病情进展，TR可引起右心室扩张、心房增大、肝淤血及生存率下降，因此建立稳定、早期、可重复的识别策略具有重要临床意义。人工智能（AI）在心血管疾病检测和风险预测中已展现应用潜力，并在超声心动图视图分类、心腔分割及血流分析方面奠定了技术基础。该研究旨在系统整合AI和机器学习（ML）用于TR检测的现有证据，评价其准确性、稳健性与可重复性。

2 方法

2.1 研究设计与注册
本研究依照诊断试验准确性系统综述与Meta分析优先报告条目（PRISMA）实施，并预先注册于PROSPERO。研究方案注册后未作修订，以保证方法学一致性。

2.2 检索策略
研究人员检索了PubMed、Embase、Scopus、Web of Science和Cochrane Library，自数据库建立至2025年8月。检索词结合主题词与自由词，覆盖疾病术语和方法术语，包括TR、三尖瓣关闭不全、右心瓣膜病、人工智能、机器学习、深度学习、神经网络及自动化定量等，不限制语言和发表年份。

2.3 纳入与排除标准（PICOS框架）
纳入对象为接受原发性或继发性TR影像或信号评估的成年患者；指标试验为基于AI的自动或半自动TR严重程度分级算法；参考标准为临床医师依据指南解释的二维/三维超声心动图、多普勒或心脏磁共振（CMR）分级结果。结局包括AUROC、敏感度、特异度、精确率、F1值或可构建2 × 2列联表的数据。仅纳入具有内部或外部验证的原始研究；动物研究、病例报告、综述、社论、重复研究及数据不足研究予以排除。

2.4 数据提取与质量评价
由两名评审者独立提取研究特征、模型类型、输入模态、样本规模、人口学信息、TR病因、合并症及诊断性能指标。若单项研究报告多个模型，则优先纳入表现最佳或作者指定的主要模型。偏倚风险采用AI扩展版预测模型偏倚风险评估工具（PROBAST + AI）评价，证据确定性依据诊断试验准确性GRADE框架（GRADE-DTA）分级。

2.5 统计分析
统计分析使用R 4.5软件完成，采用双变量随机效应模型合并敏感度和特异度，并计算95%置信区间。不同TR分级体系经统一处理后对齐为具有临床意义的中度及以上阈值。针对同一研究多个AI模型，研究人员按外部验证优先、DL优先、多视图优先及作者首选模型优先的层级规则进行筛选。异质性以I²和τ²衡量，并通过亚组分析、Meta回归、逐一排除分析及排除会议摘要的敏感性分析检验稳健性，同时采用Deeks漏斗图不对称检验评估发表偏倚。

3 结果

3.1 研究筛选
数据库初检共获得667条记录，去重后纳入338篇题录和摘要筛查，17篇进入全文评阅，最终8项研究符合纳入标准，且均进入Meta分析。

3.2 基线特征
8项研究累计包含超过130万份超声心动图检查和心电图记录，涉及逾63万名独立患者，来源于美国、中国、中国台湾、以色列、法国和英国，覆盖学术三级中心与社区医院。样本量差异显著，最小为1541例经胸超声心动图（TTE），最大为988618份ECG。总体平均年龄集中于60至76岁，男性比例约48%–54%。高血压、糖尿病、冠心病、心力衰竭、心房颤动及慢性肾病较为常见。模型架构方面，所有研究均采用现代DL方法。超声心动图模型多基于卷积神经网络（CNN），并结合transformer、多视图视频输入、连续波（CW）多普勒频谱或视图分类模块；ECG研究则主要采用标准或残差CNN。6项研究含外部或跨国验证队列，这在一定程度上增强了泛化性，但也加大了研究间异质性。

3.3 基于超声心动图模型的合并效能
5项研究评估了超声心动图模型的TR检测能力。合并敏感度为0.87，特异度为0.88，AUROC为0.92，提示整体诊断效能较高。然而总体异质性显著。按严重程度分层后，轻度TR的AUROC为0.79；中度TR的AUROC为0.96；重度TR的AUROC为0.97。结果显示，随着TR严重程度增加，模型特异度明显提升，而敏感度变化相对有限。Meta回归提示，事件发生率与效应量变异显著相关，而样本量和验证集数量与异质性的关系不明显。

3.4 基于心电图模型的合并效能
3项研究评估了ECG模型。合并敏感度为0.72，特异度为0.77，AUROC为0.805。与超声心动图模型相比，其诊断性能略低，但具备非侵入、低成本和便于大规模筛查的优势。由于研究数量有限，且未对TR严重程度进行细分，相关亚组分析与Meta回归解释力受限。

3.5 总体合并结果与敏感性分析
8项研究总体合并敏感度为0.82，特异度为0.84，AUROC为0.89。Meta回归显示，成像模态是异质性的主要来源，而验证类型、样本量和事件率并未显示显著关联。限制于外部验证研究后，敏感度和特异度略有改善，且敏感度异质性有所下降；逐一排除分析表明无单项研究对总体结果产生决定性影响；排除会议摘要后，合并效应基本稳定。Deeks检验未见显著发表偏倚，但受限于研究数量较少，仍不能完全排除选择性报告风险。

3.6 质量评价与GRADE评估
依据PROBAST + AI，多数全文研究在开发、验证及适用性方面表现为低偏倚风险，说明其样本定义、预处理流程、分级标准及模型开发过程较为规范。部分研究因不确定性指标、缺失值处理或模型选择依据报告不足而被评为中等风险。两篇会议摘要因方法学信息缺失，无法正式判定。综合GRADE-DTA框架，证据确定性被评为中等，主要受研究异质性高、设计以回顾性为主及外部验证仍有限等因素影响。

4 讨论

4.1 临床意义
研究结果表明，AI可提高TR识别的一致性与自动化水平，尤其是基于彩色多普勒和多视图输入的DL模型，在中重度TR检测方面具有较强判别能力。此类模型有望减少人工分级中的观察者差异，促进高危患者更早转诊接受经导管缘对缘修复等先进治疗，并改善心力衰竭和肺动脉高压人群的风险分层。自动提取反流束速度等参数，也可能为临床分诊和减少不必要侵入性检查提供支持。

4.2 研究局限性
本研究纳入文献数量有限，多数为单中心回顾性研究，统计效能与外推性受到限制。不同研究间TR分级标准、数据来源、输入特征、图像质量及参考标准存在差异，显著削弱了合并结果的临床可解释性。二分类检测与多等级分级并存，也影响了横向比较。此外，研究总体偏重高资源学术中心，社区和资源受限环境中的适用性仍待验证。

4.3 未来方向
未来应开展大规模、多中心、前瞻性研究，并依据TRIPOD-AI和CLAIM等规范提升报告透明度与可重复性。建立整合多参数超声标准、潜在生物标志物和心脏磁共振（CMR）的统一参考标准，有助于降低真实标签偏差。针对少数族裔、起搏器植入患者及声窗不良患者开展外部验证，对于检验模型可迁移性尤为关键。轻量化模型在便携式超声设备中的部署，以及将TR检出与严重程度分层整合为统一工作流，也具有重要应用前景。最终仍需随机对照试验验证AI辅助TR检测对干预时机、心力衰竭住院率、生存结局及成本效益的真实影响。

5 结论

机器学习模型在基于超声心动图和ECG的TR检测中均显示出较有前景的诊断准确性，其中超声心动图模型整体表现优于ECG模型。然而，由于研究设计、患者群体、输入模态及分级阈值差异明显，当前证据仍以中等确定性为主。现阶段AI更适合作为传统诊断流程的补充工具，其真实世界稳健性、可迁移性及临床获益仍需通过更高质量的前瞻性外部验证研究进一步确认。

联系信箱：

粤ICP备09063491号

热点排行