基于可解释深度学习模型的孕早期胎儿心脏筛查新突破:多中心队列验证与临床转化前景

《npj Digital Medicine》:An interpretable deep learning model for first-trimester fetal cardiac screening

【字体: 时间:2025年12月09日 来源:npj Digital Medicine 15.1

编辑推荐:

  本研究针对孕早期先天性心脏病(CHD)筛查准确率低(14%-17%)的临床难题,开发了首个基于多中心队列验证的可解释深度学习(DL)模型。该模型利用11-14孕周多普勒血流四腔心切面(4CV)图像,通过模拟临床诊断路径(分析舒张期血流模式)实现了CHD的精准检测(AUROC高达1.000),其诊断逻辑与专家认知高度一致。在外部验证中模型性能稳定,且能有效提升临床医生诊断准确性。这项技术为早期CHD干预提供了可靠工具,对推动全球产前心脏筛查公平性具有重要价值。

  
先天性心脏病(CHD)是全球最常见的先天性畸形,也是导致婴儿死亡和长期健康问题的主要原因。虽然产前诊断和新生儿护理的进步显著改善了患儿的生存率和生活质量,但严重病例仍然给家庭和医疗系统带来沉重负担。目前,孕中期(18-24周)胎儿超声心动图是产前CHD筛查的标准方法,其敏感性超过90%。然而,随着颈项透明层筛查的普及,孕早期(11-14周)心脏评估提供了一个至关重要的时间窗口。早期诊断能够改善围产期结局,通过及时的专家转诊和多学科干预,为染色体、遗传及心外异常提供早期预警,并对可能受益于宫内治疗的进行性心脏病变(如流出道梗阻)具有特殊价值。此外,早期发现还为家庭提供了更充分的决策时间,特别是在面对严重或危及生命的畸形时。尽管潜力巨大,但孕早期心脏筛查的准确性一直很低,报告敏感性仅为14%至17%,这主要归因于早期妊娠的技术和生理挑战,包括胎儿心脏体积小、活动度高以及声学分辨率有限,这些都阻碍了可靠图像的获取和解读。
为了应对这一严峻挑战,研究人员在《npj Digital Medicine》上发表了题为“An interpretable deep learning model for first-trimester fetal cardiac screening”的研究。该研究利用中国多地区108,521例孕早期心脏筛查数据,从中精选出8,062张多普勒血流四腔心切面(4CV)图像,开发并验证了一个可解释的深度学习模型。该模型的核心创新在于其“为解释而设计”的架构,它模拟了临床医生的逐步推理过程:首先评估舒张期血流模式,然后整合这些中间评估结果来指导最终分类。这种结构化方法确保了模型的输出反映的是熟悉的诊断逻辑,增强了透明度和多学科协作的可能性。
研究人员采用的关键技术方法主要包括:基于大规模多中心回顾性队列的数据收集与严格质控(来自中国7家三级转诊中心的11-14孕周多普勒血流4CV图像);一种结合了结构引导特征学习(通过交并比IoU损失函数引导模型关注心脏区域)、血流模式分析(预测腔室充盈数、房室血流数和血流对称性)和基于交叉注意力机制的疾病预测的可解释深度学习框架;以及使用Vision Transformer (ViT)作为图像编码器进行特征提取。模型在内部和多个外部数据集上进行了严格的性能验证和与临床医生的对比评估。
2.1 样本特征
研究建立了迄今为止最大的孕早期胎儿心脏筛查队列,最终用于模型开发和验证的数据集包含8,062张多普勒血流4CV超声图像。标注可靠性极高,所有血流模式的评估者间一致性超过99%(Cohen‘s k和Fleiss’ k值接近1.000),确保了标注的可靠性。
2.2 模型性能
模型在所有验证集中检测特定心脏异常方面表现出色。在内部验证集中,模型实现了完美的区分度,AUROC(受试者工作特征曲线下面积)为1.000,敏感性为0.995,特异性为0.999。性能在外部验证集中保持稳健,AUROC范围从0.925到1.000。在亚型分类方面,模型也表现出强大的区分能力,对于正常和功能性单心室(FSV)的表现通常很高,而对于房室间隔缺损(AVSD)和心室发育不良(HV)的指标在内部和外部验证集中略低。决策曲线分析表明,模型在广泛的阈值概率范围内具有临床实用性。
2.3 模型可解释性
模型在所有验证集上获得了一致的IoU分数(约0.8),接近三位临床专家之间的评估者间一致性(IoU约0.9),这表明模型在诊断过程中可靠地聚焦于临床相关的心脏结构,而非依赖无关特征或伪影。模型在预测三种舒张期血流模式方面也表现出强大性能,F1分数范围从0.893到1.000。分析表明,模型学习到的血流模式与缺陷亚型特征之间的关系与既定的临床知识一致,证实了其决策过程与专家诊断推理相符。
2.4 与临床医生的比较
为了评估模型性能,六名具有5-8年相关经验的临床医生对从外部验证数据集中随机选取的80个病例进行了独立评估。在二元分类任务中,临床医生和模型都表现出近乎完美的诊断准确性。在更具挑战性的亚型分类中,临床医生表现出较大的变异性,特别是对AVSD检测的敏感性较低,对HV和FSV分类的表现差异很大。值得注意的是,该模型 consistently 达到或超过了临床专家的平均水平,同时在外部验证集上保持稳健性能。
2.5 AI辅助提升临床医生诊断性能
在比较研究的基础上,允许临床医生在初次独立评估后查看模型的预测结果和基于血流的解释。AI辅助的整合显著提高了大多数临床医生的诊断性能,且未导致任何医生性能下降。对于二元分类,AI支持普遍提高了诊断准确性,AUROC增益最高达0.088。在更具挑战性的亚型分类任务中,AI辅助同样带来了改进,绝对增益最高达0.097,敏感性最大提升0.208。这些发现表明,该模型,特别是通过提供透明的基于血流的解释,能有效增强临床医生在孕早期诊断特定胎儿心脏缺陷的能力。
本研究提出了首个利用多普勒血流4CV成像进行孕早期胎儿心脏评估的可解释深度学习模型,能够以高准确性和可解释性早期检测特定和严重的心脏异常。通过利用迄今为止最大规模的多中心队列进行稳健的模型开发和验证,确保了模型在不同临床环境下的强大性能、可扩展性和泛化能力。该模型的设计核心是其可解释性,它明确地将模型的决策过程与既定的临床工作流程对齐,通过模拟专家的逐步推理(先评估血流模式,再整合信息进行分类),增强了在高风险产前筛查领域的可信度。模型对特定疑难病例的分析进一步凸显了其临床价值,例如在部分临床医生可能因技术伪影或解剖细微差别而误判的情况下,模型能做出正确识别。从转化角度看,该模型非常适合整合到现有的产前筛查工作流中,因其仅需单张多普勒增强的4CV图像,整合干扰小,所需操作员培训少,有利于在从高流量三级中心到资源有限环境等多种临床场景中采用,从而有望扩大早期胎儿心脏筛查的可及性,促进CHD检测的全球公平性。尽管模型整体表现强劲,研究也指出了其局限性,如图像质量排除标准可能引入选择偏倚、对某些异常亚型(如AVSD和HV)的分类准确性相对较低、以及当前实现依赖于手动选择舒张期帧和单一视图等。未来工作将侧重于纳入多平面分析以改进全面评估,并开发自动帧选择模块,以实现端到端的自动化并无缝集成到超声医生的临床工作流中。总之,这项研究为基于多普勒血流4CV成像的早期AI辅助胎儿心脏筛查建立了一个大规模、多中心框架,其可解释模型在关键的11-14孕周窗口期实现了对特定和严重心脏异常的稳健检测,为推进可扩展、公平的产前护理奠定了坚实基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号