深度学习模型助力胎心监护解读:突破困境,精准预测胎儿健康

【字体: 时间:2025年03月10日 来源:npj Women's Health

编辑推荐:

  研究人员为解决胎心监护(CTG)解读难题,开展深度学习模型研究,发现客观 pH 指标更佳,意义重大。

  在妇产科领域,胎心监护(CTG)是一种常用的监测胎儿健康状况的技术,它通过记录胎儿心率(FHR)和孕妇子宫收缩(UC)情况,来判断胎儿在母体内是否安好。然而,目前 CTG 的解读主要依赖医护人员的视觉判断,这存在着诸多问题。不同的医护人员对同一份 CTG 结果可能有不同的解读,即存在观察者间差异;甚至同一医护人员在不同时间解读同一份结果,也可能出现不同判断,也就是观察者内差异。这些差异导致 CTG 的假阳性率较高,使得剖宫产和手术阴道分娩率上升,却未能有效改善新生儿结局。在一些医疗资源有限、缺乏专业 CTG 解读人员的地方,情况更是雪上加霜。因此,如何更准确、客观地解读 CTG,成为亟待解决的问题。
为了攻克这一难题,来自斯坦福大学、谷歌研究等机构的研究人员 Nicole Chiou、Nichole Young-Lin 等开展了一项关于利用深度学习模型解读 CTG 的研究,相关成果发表在《npj Women's Health》上。

研究人员在这项研究中主要运用了以下几种关键技术方法:

  1. 使用公开数据集:采用来自捷克布尔诺大学医院的 CTU-UHB 公开数据集,包含 552 名患者的 CTG 记录,以及胎儿和孕妇的元数据11
  2. 数据预处理:对原始 CTG 数据进行一系列处理,如去除首尾重复的缺失值,标记并处理不同时长的缺失信号,进行信号平滑、数据增强和过采样,以解决数据不平衡问题,还将数据裁剪为 30 分钟片段并下采样至 1Hz1213
  3. 构建模型:以 CTG-net 神经网络模型为基础进行调整,分别使用 FHR、UC 或两者结合作为输入,还尝试添加元数据特征,同时运用基于规则的 XGBoost 分类器进行对比14
  4. 模型评估:利用受试者工作特征曲线下面积(AUROC)和固定特异性阈值为 90% 时的灵敏度来评估模型性能,并通过统计检验比较不同模型和方法的差异15

下面来看具体的研究结果:

  1. 评估模型性能(按预测任务):研究人员对比了使用脐动脉血 pH 值、Apgar 评分以及两者异常标准的逻辑 “或”(LOR)作为真实标签训练模型的性能。结果显示,预测 LOR 的基线方法在 CTU-UHB 开源数据集上的 AUROC 为 0.68 ± 0.07 ,比之前研究中采用下采样预处理和默认卷积神经网络(CNN)架构的性能更高。在 Apgar 预测任务中,基于特征的方法 AUROC(0.35 ± 0.10 )显著低于 CNN 基线(0.69 ± 0.12 );在 pH 分类任务中,两者差异不显著12
  2. 评估模型性能(按输入信号类型):对比仅使用 FHR、仅使用 UC 以及同时使用 FHR 和 UC 作为输入的深度学习模型性能,发现 FHR + UC 模型在 pH 和 Apgar 分类任务中均取得最高的 AUROC 性能,若排除其中任何一个通道,两个任务在 90% 特异性下的灵敏度均显著降低34
  3. 添加母婴元数据后的性能:添加母婴元数据向量到 FHR + UC 模型输入后,pH 预测任务的性能提升了 0.07 个点,达到 0.69 ± 0.08 ,但提升不显著;而对于 Apgar 预测任务,AUROC 却出现了非显著性下降(0.57 ± 0.11 )。进一步的消融研究表明,不同元数据对模型性能影响各异,如羊水胎粪的存在会显著降低 pH 预测模型的 AUROC,而添加孕妇年龄、子痫前期状态等虽有积极贡献,但效果不显著56
  4. 训练和测试期间的时间分布变化评估:在不同时间点训练模型并在最后 30 分钟测试,发现 pH 和 Apgar 预测任务的 AUROC 没有显著差异,但 Apgar 预测性能的变异性更大。对于 pH 预测任务,在最后 30 分钟之前的信号上进行预训练,然后在最后 30 分钟微调,能获得最高的 AUROC(0.69 ± 0.09 );在模拟间歇性 CTG 评估的设置中,pH 分类任务在不同时间点测试时性能保持稳定,而 Apgar 预测性能变异性高,对时间分布变化的稳健性较差78
  5. 亚组评估:研究人员评估了不同亚组的性能指标,发现 pH 评估中,UC 信号缺失程度不同的亚组间基线 AUROC 存在显著差异;Apgar 预测中,FHR 缺失亚组间也有显著差异。添加元数据后,pH 预测的性能差异有所缓解,但在该任务上,元数据增加了人口统计学和临床相关亚组的 AUROC 性能差异,不过这些差异都不具有统计学意义910

综合来看,该研究表明深度学习模型在预测胎儿缺氧方面具有可行性,且使用客观的脐动脉血 pH 测量值作为训练标签,比主观的临床医生评定的 Apgar 评分能使模型表现更一致、更稳健,尤其在面对时间分布变化时优势明显。这一发现对于在仅有间歇性 CTG 测量的环境中应用模型具有重要意义。同时,研究还发现训练模型时使用与分娩结果最相关的最后 30 分钟 CTG 记录,或先在其他时间段预训练再在最后 30 分钟微调,能提升模型性能。不过,研究也存在一定局限性,如数据集来自单一医院,样本量有限,缺乏与临床医生直接对比算法性能,以及未明确如何将预测算法最佳地整合到临床工作流程中等。未来研究需要更大、更多样化的数据集,以及进一步探索算法与临床工作的融合方式,以切实改善新生儿结局。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号