编辑推荐:
在孕期巨大儿(Macrosomia)产前预测面临挑战的背景下,研究人员开展了 “机器学习方法预测孕期不同阶段巨大儿” 的研究。他们收集数据构建 21 个模型,发现 Logistic 回归和集成模型预测性能良好,为孕期咨询、评估和决策提供依据。
在妇产科领域,胎儿巨大儿问题一直备受关注。巨大儿指出生体重超过 4000g 的胎儿,其发生率在发展中国家为 0.5 - 14.9%,中国为 7.3%。这不仅会增加产妇分娩时出现难产、产后出血等并发症的风险,还可能导致新生儿低血糖、产伤等短期问题,甚至增加其未来患心血管代谢疾病的几率。目前,虽然已有多种预测巨大儿的方法,如基于母体因素构建的列线图模型、超声监测等,但都存在一定局限性。超声监测受资源限制,且晚期预测时干预时间有限;现有模型预测准确性仍有待提高。因此,开发更精准、更早期的巨大儿预测方法迫在眉睫。
为了解决这些问题,北京清华长庚医院的研究人员开展了一项回顾性研究。他们旨在利用机器学习方法,提高孕期不同阶段巨大儿的预测能力。该研究成果发表在《BMC Pregnancy and Childbirth》杂志上。
研究人员收集了 2019 年 12 月至 2024 年 7 月在北京清华长庚医院分娩单胎婴儿的 500 名孕妇的产科电子病历。其中,训练集包含 208 例巨大儿和 208 例非巨大儿病例,另外 84 例用于外部验证。研究人员共选取了 23 个候选变量,涵盖孕妇的基本特征、体格测量数据和实验室检查结果。在数据处理方面,针对缺失值采用单值插补法,处理极端值并对数据进行标准化和编码。通过最小绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator,Lasso)方法结合 Lasso 交叉验证(LassoCV)进行特征选择,确定了不同孕期阶段的关键特征。研究中运用了随机森林(Random Forest,RF)、K 近邻(K-nearest neighbors,KNN)、AdaBoost、支持向量机(Support Vector Machine,SVM)、朴素贝叶斯、逻辑回归(Logistic Regression)6 种算法,并构建了集成模型。利用 10 折交叉验证和网格搜索(GridSearchCV)进行模型训练和超参数优化,通过受试者工作特征曲线(Receiver Operating Characteristic,ROC)、曲线下面积(Area Under the Curve,AUC)、准确率、精确率、灵敏度、特异度和 F1 分数等指标评估模型性能,还运用 SHapley Additive exPlanations(SHAP)分析解释模型变量的重要性。
研究结果
- 人口统计学特征:对比巨大儿和非巨大儿组发现,巨大儿组孕妇的身高、孕前体重、孕早期体重、产前体重、孕期体重增加量更高,多胎妊娠(gravidity≥2)和经产妇(parity≥2)比例更大,且男婴比例更高。通过 Lasso 分析确定了不同孕期阶段影响巨大儿的关键因素,随机森林算法得出预测巨大儿的前 5 个重要特征为产前体重、孕期体重增加量、产前 Hb 与孕早期 Hb 比值(Pre-labor Hb/First-trimester Hb)、孕早期 Hb 和孕妇身高。
- 模型预测和算法性能:在孕前数据预测中,朴素贝叶斯和逻辑回归模型精确率最高,SVM 模型灵敏度最佳;孕早期数据预测时,SVM 模型精确率最高,朴素贝叶斯模型灵敏度最高;产前数据预测中,逻辑回归和集成模型精确率最高,集成模型灵敏度达到 0.951。整体来看,随着孕期进展,模型 AUC 值逐渐增加。孕前数据集模型 AUC 范围为 0.582 - 0.790,孕早期为 0.625 - 0.815,产前为 0.830 - 0.930,集成模型在产前数据预测中 AUC 达到 0.930。
- 特征重要性评估:SHAP 分析显示,对产前预测巨大儿的集成模型影响最大的 5 个特征为产前体重、孕周、孕期体重增加量、孕早期 Hb 和新生儿性别。较高的产前体重、孕周、孕期体重增加量、孕早期 Hb 和孕妇身高会增加巨大儿预测的可能性;较高的 Pre-labor Hb/First-trimester Hb 比值则降低巨大儿的可能性。单因素逻辑回归分析表明,孕妇身高、孕周、gravidity>2、parity≥2、男性胎儿、产前体重和孕期体重增加量与巨大儿风险显著相关;多因素逻辑回归分析显示,孕周、产前体重和男性胎儿与巨大儿风险显著相关,且孕早期首次产检孕周与巨大儿风险呈负相关。
研究结论和讨论
该研究首次利用孕前、孕早期和产前数据进行机器学习预测巨大儿,集成模型在产前预测中表现出色,为孕期咨询、产前评估和产时决策提供了有价值的参考。研究进一步证实了孕妇体重、身高、孕期体重增加量、孕周和新生儿性别等因素与巨大儿的关联。然而,研究也存在局限性,如单中心回顾性研究可能存在偏倚,随机欠采样可能丢失信息,血压测量方式单一,未考虑糖化血红蛋白(HbA1c)、糖化白蛋白、脂质代谢和遗传易感性等因素。未来需要多中心研究和更全面的数据来改进预测模型。总体而言,这项研究为母婴健康管理开辟了新方向,有望通过早期预测和干预降低巨大儿相关风险,提升生殖健康水平。