《npj Digital Medicine》:Fetal gestational age estimation using artificial intelligence on non-targeted ultrasound images and video
编辑推荐:
本研究针对传统胎儿孕周(GA)估算方法对操作者技能依赖度高、在资源有限地区难以推广的临床难题,开发了一种基于深度学习的人工智能模型。该模型利用来自三大洲78,531例妊娠的超过200万张超声图像进行训练,能够直接从任意胎儿超声图像(无需特定切面)估算GA,并输出基于图像质量的不确定性值。独立验证显示,该模型在14-18周和18-24周的平均绝对误差(MAE)分别为1.7天和2.8天,显著优于传统生物测量法(p<0.001)。该技术有望降低对高技能超声医生的依赖,提升全球资源有限地区的产前保健可及性。
准确估算胎儿孕周(Gestational Age, GA)是产前保健的基石,它指导着影响母婴健康的关键决策。然而,传统的估算方法各存局限:基于末次月经周期(LMP)的方法因月经规律性和排卵时间的不确定性以及回忆偏差而误差较大;超声生物测量虽是金标准,但早期妊娠后 crown-rump length (CRL, 顶臀长) 无法有效测量,中晚期采用的 biparietal diameter (BPD, 双顶径)、head circumference (HC, 头围)、abdominal circumference (AC, 腹围) 和 femur length (FL, 股骨长) 等测量,其准确性随孕周增加而下降(早孕期CRL精度为3-7天,晚孕期误差可达21-30天)。更重要的是,精确的生物测量需要操作者具备高超技能、耗时且需胎儿配合,这在资源有限的中低收入国家(LMICs)尤其成问题,因为这些地区常面临技术设备不足、专业超声医生稀缺且孕妇首次产检时间较晚的挑战。因此,开发一种更简便、快速、对操作者要求更低且适用于各孕周的GA估算方法迫在眉睫。
为此,Martin Benson、Sacha Walton、Tom Hartley、Simon Meagher、Suresh Seshadri、Nicholas Sleep 和 Aris T. Papageorghiou 等研究人员在《npj Digital Medicine》上发表了一项研究,他们利用来自澳大利亚、印度和英国78,531例妊娠的超过200万张超声图像,训练了一个深度学习模型。该模型能直接从任何胎儿超声图像(无论方位如何)估算GA,并输出基于图像质量的估算不确定性值。模型还引入了处理视频数据的方法,使其在模拟非定向扫描的视频上也能快速、准确地工作。
研究团队采用了几项关键技术方法:1. 使用基于ConvNeXt架构的深度学习模型,该模型不仅能输出GA估计值(μ),还能输出该估计的不确定性(σ),通过最小化特定损失函数(L)进行训练,训练数据进行了分层抽样以确保多样性,并应用了针对超声图像特点的数据增强技术。2. 对于视频分析,采用静态一维Kalman滤波器对模型从视频连续帧中提取的GA估计序列进行融合,通过状态更新方程迭代优化最终估计,并设定方差阈值(Σ=0.1)来筛除不含胎儿信息的帧。3. 模型性能在独立回顾性数据集上验证,包括来自742个胎儿的36,762张静态图像和99个模拟非定向扫描的3分钟视频片段,将模型估算的GA与基于早期CRL(金标准)计算的真实GA进行比较,以平均绝对误差(MAE)为主要评估指标。
静态图像上的性能分析
模型在10至36周的整个GA范围内,其估计的准确性 consistently 优于基于生物测量的估计。
Biometry literature benchmark MAE(days) |
Biometry measured MAE(days) |
IU ScanNav FetalCheck MAE(days) |
MAE superiority to literature benchmark-ve =improvement to benchmark |
MAE superiority to measured-ve= improvement to benchmark |
Superiority to measured p value** |
具体而言,在14-18周和18-24周,模型的MAE分别为1.7天和2.8天,显著优于传统生物测量法(p<0.001和p=0.001)。在24-30周和30-36周,模型MAE分别为5.0天和4.7天,也显示出优于或与生物测量法相当的精度。模型在不同扫描国家(英国、澳大利亚、印度)和不同母体体重指数(BMI)类别中均表现出稳定且优异的性能,表明其具有良好的泛化能力。预测GA与实际GA的散点图显示数据点紧密聚集在对角线周围,Bland-Altman图也证实了预测值与实际值之间的高度一致性,尽管误差幅度随GA增加而增大,这与其它GA估算方法观察到的趋势一致。
视频上的性能分析
在模拟非定向扫描的视频测试集上,模型在所有孕期的MAE均低于预期生物测量的误差。
Expected biometry MAE(days) |
IU ScanNav FetalCheck MAE(days) |
MAE superiority to expected |
模型生成足够置信的GA估计所需的时间中位数为24秒,且在95%的情况下少于60秒,显示出高效性。
此外,对视频帧进行重新排序的测试表明,约90%的情况下,估计差异小于3天,说明模型估计的准确性对扫描解剖结构的顺序依赖性不强。
讨论与结论
本研究的主要贡献在于:1. 提出了一种利用超大规模回顾性超声图像数据集训练深度学习模型的方法,该模型能同时输出GA估计和经过良好校准的不确定性估计;2. 引入了通过静态一维Kalman滤波器将此类模型应用于视频序列或静态图像集合的方法;3. 在包含超过7.5万例胎儿、横跨三大洲的庞大且多样化的超声图像数据集上成功训练了模型。
研究结果表明,该模型输出的准确性优于当前标准临床实践(生物测量)获得的估计,无论是在整体水平还是在所有关键的亚组分析中。与文献中其他方法相比,本研究提出的方法在准确性上具有竞争力,且其优势在于可直接应用于大型回顾性图像档案,而无需视频数据进行模型训练。然而,该分析的一个局限性是尚未在由新手用户直接获取的扫描视频上验证模型的准确性,下一步自然是在真实世界环境中进行前瞻性研究。
总之,这项研究代表了在民主化超声在临床决策中的应用方面取得了进展。该AI驱动的GA估算方法达到或超过了金标准胎儿生物测量的性能,同时显著降低了对高技能超声医生的依赖。通过使新手用户能够获得可靠的GA评估,这项技术有望显著改善服务不足地区的产前保健,与改善母婴健康结局的全球卫生目标保持一致。该方法有潜力整合到低成本、便携式超声设备中,将这一关键的诊断能力带到甚至是最偏远和资源最有限的地区。