综述:人工智能在二尖瓣反流临床管理与预后评估中的应用:一项系统评价

《The Egyptian Heart Journal》:Artificial intelligence in the clinical management and prognostication of mitral regurgitation: a systematic review

【字体: 时间:2026年06月12日 来源:The Egyptian Heart Journal 1.4

编辑推荐:

  二尖瓣反流(mitral regurgitation, MR)作为最常见的瓣膜性心脏病之一,其在风险分层和及时干预方面持续面临挑战。传统诊断方法存在显著的观察者间变异性(interobserver variability)。人工智能(artificial in

  
二尖瓣反流(mitral regurgitation, MR)作为最常见的瓣膜性心脏病之一,其在风险分层和及时干预方面持续面临挑战。传统诊断方法存在显著的观察者间变异性(interobserver variability)。人工智能(artificial intelligence, AI)近年来在心脏病学领域获得越来越多的关注,以增强临床精确性。本文综述了AI在MR诊断、严重程度评估和预后预测中的应用,重点关注性能指标。研究人员于2025年5月9日在PubMed、Embase和MEDLINE数据库进行了文献检索。纳入标准为应用AI处理MR相关任务的研究,所用数据类型包括影像学、心电图(electrocardiogram, ECG)或临床数据。数据提取聚焦于数据集特征、模型架构和性能表现。共纳入11项研究,涵盖80,915例患者。其中,6项研究利用超声心动图数据,2项利用心电图数据,2项利用临床生物标志物或结构化数据集,1项利用胸部X线摄影数据。算法包括卷积神经网络(convolutional neural network, CNN)、支持向量机(support vector machine, SVM)和集成模型。报告的ROC曲线下面积(area under the receiver operating characteristic curve, ROC AUC)范围为0.74至0.94。基于彩色多普勒或三维几何二尖瓣特征的模型实现了最高的判别性能。仅少数研究纳入外部验证或报告了诸如阳性预测值(positive predictive value, PPV)等临床可操作的阈值。基于心电图的模型显示出较高的可扩展性但灵敏度较低。整合多模态数据的研究取得了有前景的结果。

AI模型,特别是基于超声心动图影像训练的模型,在改善MR评估方面展现出巨大潜力。然而,由于缺乏外部验证和结果报告不一致,其广泛的临床推广应用受到限制。未来研究应强调模型可解释性、多中心验证以及与专家评估的直接比较,以弥合转化差距。
**引言**

二尖瓣反流(MR)是欧美地区最常见的瓣膜性心脏病之一。基于11,911例美国成人超声心动图队列研究,75岁以上人群的MR患病率超过10%,凸显了该疾病的沉重负担。MR的临床评估受到超声心动图分级中显著观察者间变异性、对多个半定量参数的依赖以及纵向影像和多模态数据使用增加等因素的限制。在这一背景下,基于机器学习(ML)的方法可能提供有前景的策略。ML使计算机接收输入数据并基于学习范式建立复杂的分析框架,以最大化预测精度。深度学习(DL)是基于多层神经网络的ML子集,特别适用于医学影像和超声心动图等基于图像的应用。AI已在心脏病学领域确立了其价值,甚至延伸至罕见心脏疾病的精确诊断。AI在心脏外科中的应用则代表了更为新近的发展。例如,基于CT血管造影、增强CT和非增强CT图像训练的模型在主动脉瘤诊断中显示出前景;基于主动脉弓修复术前变量的模型在预测术后卒中和死亡方面表现出良好性能。ML模型的性能通常通过阳性预测值(PPV,亦称精确率)、阴性预测值(NPV)、灵敏度(亦称召回率)、特异度、ROC AUC和F1分数(计算为精确率与召回率乘积的两倍除以精确率与召回率之和)进行评估。

**材料与方法**

该系统性评价的协议已在PROSPERO注册(ID: CRD420251114400),并遵循系统评价与荟萃分析优先报告条目(PRISMA)指南进行。主要结局指标为AI性能评分,量化模型在MR管理和结局预测中的诊断准确性与预后能力。

文献检索于2025年5月9日进行,涵盖PubMed、Embase和MEDLINE(通过Ovid)数据库,共获得149篇文献。去除79篇重复记录后,70篇保留用于进一步分析。检索未对语言或发表日期设限。两名主要评审员(MB和AZ)独立进行盲法筛选,首轮筛选标题和摘要,第二轮评估全文,冲突由第三位评审员(AAH)裁决。最终11项研究纳入系统评价。

纳入标准包括:应用AI模型进行MR管理和预后评估的英语发表研究,不限定MR分类或严重程度,允许纳入原发性和继发性MR。排除标准包括:(1)非MR聚焦的研究;(2)未使用ML技术;(3)综述、荟萃分析、病例报告、信件、社论或评论类文章;(4)非英语发表;(5)全文不可用(会议摘要/预印本);(6)其他明确排除原因。

数据提取使用结构化Excel表格,内容包括研究设计、对照组、患者人口统计学特征(患者数量、年龄、性别)、MR严重程度和合并症。其他变量包括模型架构(CNN模型、自监督学习框架、人工神经网络及SVM、LDA、GBM、XGBoost等经典ML方法)以及关键性能指标(灵敏度、特异度、F1分数、准确度和AUC)。

**结果**

系统性检索共获得149条记录(PubMed n=43,Embase n=71,MEDLINE via Ovid n=35)。去除重复后剩余70篇独特研究,标题和摘要筛选后排除40篇,第二轮筛选30篇,最终纳入11篇全文研究,涵盖80,915例患者(超声心动图模型40,878例,心电图模型18,372例,放射影像模型5,270例,整合模型16,395例)。

纳入研究采用多种ML方法,基于不同数据模态预测或分类MR严重程度及其干预后预后。研究按主要数据类型分组:超声心动图测量参数(左室射血分数LVEF、左室舒张末期容积LVEDV、左房容积、有效反流口面积、反流量、缩流颈宽度、右室径线、右房面积、三尖瓣反流分级、肺动脉收缩压和斑点追踪参数)、心电图波形、实验室生物标志物(NT-proBNP、肌酐、C反应蛋白、中性粒细胞/淋巴细胞比值、血小板计数、尿素和电解质)以及结构化临床数据(人口统计学、合并症和手术史)。

**基于超声心动图的模型**

超声心动图数据构成了大多数高性能模型的基础。六项研究训练了基于超声心动图数据的AI算法。Vrudhula等开发了基于四腔心彩色多普勒的自动化框架,在Cedars-Sinai超过58,000项研究上训练,外部验证于Stanford的915项研究,严重MR的AUC高达0.969。Hausleiter等开发了基于XGBoost的监督学习算法(EuroSMR评分),整合18项结构化临床、超声心动图和实验室参数预测经导管缘对缘修复术后1年死亡率,AUC为0.789。Yang等开发了自监督学习算法(CD-SSL),可自动从二维彩色多普勒超声心动图视频中提取定量指标,改善MR严重程度分类的诊断准确性。Moghaddasi等开发了基于经胸超声心动图(TTE)视频数据的ML模型进行MR严重程度分类,采用扩展局部二值模式(ELBP)和扩展体积局部二值模式(EVLBP)进行特征提取,主成分分析(PCA)降维,径向基函数核SVM分类器实现高达99.38%的灵敏度和99.63%的特异度。Zhang等基于Mask R-CNN架构开发自动化模型检测和分级MR,轻度MR的F1分数为0.94,严重MR的准确度高达0.91。Lachmann等应用AI赋能的表型分析框架,利用术前行超声心动图和右心导管数据,预测包括MR在内的主动脉瓣外心脏损害的长期恢复情况。超声心动图模型的AUC范围为0.789至0.916。

**基于心电图的模型**

两项研究利用ECG信号开发预测模型。Tsaban等将ECG数据与左室舒张功能(LVDF)指数等多模态参数整合,其基于ResNet-18的模型在4,019例患者中准确评估舒张功能,AI衍生的舒张功能障碍分级与死亡风险增加显著相关,独立于心超发现,AUC高达0.943。Naser等证明基于CNN的AI-ECG模型可识别心房继发性MR(aSMR)发生风险,在18,372例房颤或窦性心律患者中,较高的AI衍生房颤概率与新发aSMR、左房扩大和舒张功能不全独立相关。

**基于临床数据和生物标志物的模型**

Lv等聚焦于合并二尖瓣和三尖瓣反流患者的预后,开发并外部验证了2年死亡预测模型(CoMT),AUC为0.754。Zhou等对706例MR患者进行回顾性分析,整合临床(年龄、血压)、实验室(尿素、血小板计数、白蛋白、钠)、超声心动图(LVEF、MR反流量、收缩末期左房径、速度-时间积分、有效反流口)和心电图(平均P波时限)数据,基于梯度提升机(GBM)开发风险分层模型,对脑血管事件(AUC: 0.8084)和全因死亡(AUC: 0.7962)显示出高预测准确性。

**基于胸部X线的模型**

Ueda等开发并验证了一种从胸部X线检测MR的AI模型,验证集和测试集的AUC均为0.80,旨在为超声心动图不可用的场景提供客观、可及的辅助诊断工具。

**讨论**

该系统性评价强调了AI在MR诊断、预后分层和临床决策中日益增长的作用。超声心动图模型在预测准确性方面持续优于ECG或结构化临床数据模型,这反映了影像所捕获的丰富解剖和血流动力学信息。然而,广泛临床实施仍受到缺乏外部验证、标准化临床阈值缺失以及结局定义变异性的限制。

Echocardiographic models consistently outperformed others, with color Doppler and 3D geometrical feature-based approaches achieving the highest discriminatory performance. The AUC range of 0.789–0.916 across these models demonstrates strong potential, though the 100% sensitivity reported for Lachmann et al.'s cluster 3 may indicate overfitting given small sample size and absence of external validation.

ECG-based models demonstrated high scalability due to low acquisition costs and wide availability, but showed greater variability in sensitivity. While current ACC/AHA valve guidelines limit ECG role to rhythm disturbance identification and indirect chamber enlargement evidence, AI-enhanced ECG models may extend this role by uncovering subclinical electrophysiological patterns with prognostic value. Multimodal approaches, particularly integrating echocardiography and ECG, offer significant promise for enhanced predictive accuracy by capturing complementary anatomical and physiological information.

Clinical and biomarker models demonstrated moderate predictive accuracy but offered advantages in interpretability and electronic健康记录集成可行性. However, their lack of imaging input limited precision for borderline cases, and sample heterogeneity contributed to weakened predictive power.

Across all studies, AUC values ranged from 0.74 to 0.94, yet not all validated results on external cohorts, and only a minority reported clinically actionable thresholds or incorporated models into clinical workflows, limiting immediate clinical translatability.

患者特征方面,训练数据集平均年龄为61.3–69.8岁, Hausleiter等(74.1岁)和Lachmann等(78.1–79.8岁)纳入了更年长人群,但尚无针对40–50岁患者的AI模型。冠心病患病率多数研究为44.2%–58.2%,Tsaban等仅17.6%,Lachmann等高达80.0%–87.9%。AF患病率通常为20.1%–43.3%,Hausleiter等(61.2%)和Lachmann等部分群集(75.6%–75.8%)较高。LVEF多为42.4%–57.2%,Hausleiter等队列平均36.0%,特别适用于收缩功能更严重的SMR患者。

**偏倚风险评估**

采用非随机干预研究偏倚风险(ROBINS-I)工具评估,多数研究为低至中度偏倚风险。混杂和结果选择报告是最常见的偏倚增加领域。Zhou等和Lachmann等的研究因混杂领域存在严重偏倚风险而被评估为总体严重偏倚风险;Tsaban等因混杂、结局测量和结果选择报告而被评估为总体严重偏倚风险。

**局限性**

合格研究数量有限,且多为单中心回顾性设计,降低了结果的可推广性。研究目标异质性(诊断性、预后性或分级)、性能指标和95%置信区间报告不一致、训练数据集患者数量信息缺乏,阻止了具有临床意义的荟萃分析开展。大多数模型缺乏外部验证引发过拟合担忧。模型特征和指标标准化报告不足,包括训练/测试数据分离、校准方法、决策阈值、PPV和NPV等。多数研究未报告马修斯相关系数。患者合并症报告不全面限制了确定模型最优适用人群的能力。发表偏倚可能影响研究池,性能不佳的模型可能未被报告。样本量变异巨大(139至58,614例),整合模型通常训练于较小队列(平均每研究3,279例),反映了跨模态数据协调的复杂性。最后,ROBINS-I框架中某些领域(如混杂和结局测量)在AI研究中仍难以评估。

**结论**

机器学习模型在改善MR诊断、严重程度分类、预后分层和临床决策方面显示出巨大潜力。超声心动图和多模态模型始终实现最强预测性能,特别是整合解剖、血流动力学、心电图和临床变量时,而基于心电图的方法也展现出有前景的预后效用。未来研究应聚焦于前瞻性多中心验证、与指南指导评估策略的直接比较,以促进更广泛的临床应用。此外,还需努力建立临床可操作的阈值,并优化模型在不同患者人群和MR病因中的性能。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号