机器学习助力早产风险精准预测 —— 改写围产医学格局的突破性研究

【字体: 时间:2025年02月17日 来源:Scientific Reports 3.8

编辑推荐:

  为解决早产风险评估难题,波兰比得哥什科技大学医学院的研究人员开展了用机器学习方法预测早产的研究。结果显示线性 SVM 表现最佳。该研究为早产预测提供新方案,对降低早产率意义重大,值得科研人员一读。

  
波兰比得哥什科技大学医学院(Faculty of Medicine, Bydgoszcz University of Science and Technology)的 Anna Kloska 等人在《Scientific Reports》期刊上发表了题为 “Predicting preterm birth using machine learning methods” 的论文。这篇论文在早产预测领域具有重要意义,为提高早产风险评估的准确性提供了新的思路和方法,有望助力临床干预,降低早产带来的新生儿死亡率和发病率 。

研究背景


早产(Preterm birth,PT)指婴儿在妊娠 37 周之前出生,是一个重大的公共卫生问题。早产婴儿由于生理不成熟和发育不足,会面临诸多挑战,比如呼吸窘迫综合征、坏死性小肠结肠炎、脑室周围白质软化、早产儿视网膜病变以及脑室内出血等,每种情况都有独特的临床表现和治疗策略。

早产的病因复杂且多因素交织。大约一半的早产病例没有明确可识别的病因,凸显了其复杂性。低社会经济地位、既往早产史是特发性早产的重要风险因素。此外,酒精摄入、甲状腺疾病、抑郁、吸烟、多胎妊娠以及遗传因素等也与早产风险相关,其中遗传易感性是一个重要因素。生殖道感染在早产风险中也占据关键地位,研究表明宫内感染可能导致 25% - 40% 的早产。

评估早产风险因素,如遗传易感性、感染情况或微生物学评估等,既耗时又昂贵。鉴于此,研究人员开展了此项研究,旨在通过比较选定的机器学习(Machine Learning,ML)模型,基于孕妇入院时常规进行的基本血液检测以及生活方式和既往妊娠问卷结果,评估这些模型在早产风险预测中的实用性,以便尽早预测早产,及时进行干预,例如宫颈环扎术和补充黄体酮等常用于高危人群预防早产的措施。

关键技术方法


  1. 研究对象:研究数据来自波兰比得哥什 Antoni Biziel 大学医院妇产科的 50 名患者,这些患者在参与研究前均接受了全面的医学评估,包括标准医学检查、妇科评估和一系列血液检测(如全血细胞计数(Complete Blood Count,CBC)和 C 反应蛋白(C-reactive protein,CRP)水平检测),同时填写了详细的医学问卷。研究制定了严格的纳入和排除标准,确保研究对象的同质性。
  2. 数据处理:在数据准备阶段,将分类变量转换为数值格式,并评估了早产组和足月产组之间各个参数的统计学意义,去除具有统计学意义的列以避免模型准备过程中的潜在偏差。采用分层五折交叉验证,确保数据集中标签 0(足月产)和 1(早产)的均衡分布,降低过拟合风险,增强模型的泛化能力。
  3. 模型构建与评估:研究选用了 XGBoost、CatBoost、逻辑回归(Logistic regression)、支持向量机(Support Vector Machines,SVM)和决策树等机器学习模型预测早产风险。利用超参数优化框架 Optuna,以最大化 F1 分数为目标,为每个模型确定最优超参数,提升模型预测的准确性和可靠性。通过准确率、精确率、召回率和 F1 分数这四个基本评估指标,筛选出最适合该任务的模型,并对表现最佳的模型进行特征重要性分析,确定数据集中最具影响力的预测因素。
  4. 统计分析:运用卡方检验评估分类变量之间的关联,使用 Welch 非配对 t 检验计算数值变量的 p 值,以此分析数据并评估研究组之间差异的显著性。

研究结果


  1. 人口统计学和临床分析:研究共纳入 50 名患者,其中研究组(早产患者)28 人,对照组(足月产患者)22 人。研究发现,两组在分娩孕周、样本采集孕周、分娩类型、妊娠期糖尿病和教育水平等方面存在统计学显著差异(p<0.05) 。而年龄、BMI、妊娠次数和分娩次数等变量在两组间无显著差异,表明这些特征不太可能基于观察到的差异增加早产倾向。此外,虽然部分患者在孕期吸烟,但统计显示吸烟并未影响分娩时间。血液实验室参数测量结果显示,两组患者之间唯一有统计学显著差异的是血细胞比容(Hematocrit,HCT),足月分娩女性的 HCT 更高,但影响妊娠结局的并非 HCT 水平本身,而是其背后的相关病因和状况。
  2. 机器学习模型评估:研究将早产预测任务视为二元分类问题,使用混淆矩阵评估和比较基于机器学习方法的性能。实验结果显示,参数优化后的线性 SVM 表现最佳,准确率达到 82%,精确率为 83%,召回率为 86%,F1 分数为 84%。参数优化后的逻辑回归模型表现次之,各项指标与线性 SVM 相近。XGBoost 和 CatBoost 等增强算法在该研究中表现不佳,原因是数据集较小且特征简单,这些模型相对过于复杂;而决策树和随机森林等简单模型,由于使用的参数较多,结合相对较小的数据集,也未达到理想的性能。
  3. 特征重要性分析:对表现最佳的线性核 SVM 进行特征重要性分析发现,在血液形态学参数中,CRP、HCT 和血小板计数(Platelet count,PLT)的重要性最高,表明它们在预测早产方面具有潜在作用。在人口统计学特征方面,既往分娩次数(parity)和教育水平对模型性能贡献显著。

研究结论与讨论


研究表明,参数优化后的线性 SVM 是预测早产风险的最佳机器学习模型,其强大的预测性能可能归因于它能够处理复杂的决策边界以及有效优化超参数。然而,由于本研究样本量相对有限,可能会限制研究结果的普遍性,因此建议未来开展更大规模、更多样化队列的研究来验证这些结果。同时,进一步研究纳入更多临床和环境因素对模型准确性的影响,以及设计前瞻性研究探索该模型在临床实际应用中的效果,对于发挥其在早产早期风险识别和干预策略中的潜在作用至关重要。

从临床实践角度看,本研究结果意义重大。医疗保健人员可以将基于机器学习的分析纳入评估中,利用早产风险信息提高对早产高风险孕妇的识别和管理能力。通过早期识别高风险个体,能够及时实施干预措施,预防或降低早产风险。

从模型性能差异原因分析,决策树容易在小而复杂的数据集上出现过拟合,随机森林虽然在一定程度上缓解了这个问题,但当变量众多且重要性难以区分时,其表现不如线性模型。线性模型(如线性核 SVM 和逻辑回归)在数据呈现线性或近似线性关系时表现出色,医疗数据中的患者病史和血液检测数据可能具备这种特征,使其更适合用于早产风险预测。此外,线性模型对变量缩放更为敏感,这有助于它们捕捉数据中的重要模式,并且线性模型的可解释性更强,能够更有效地展示变量与早产风险之间的关系,这在医学领域至关重要。

特征重要性分析揭示了多个影响早产预测的关键因素。既往分娩次数是最具影响力的变量之一,这与现有文献中多产与早产风险之间的复杂关系相符,其影响可能因产妇年龄和妊娠间隔等因素而有所不同。CRP 的重要性凸显了母体炎症反应在引发早产中的作用,虽然 CRP 水平与早产之间的关系存在一定争议,但早期妊娠中 CRP 水平升高确实会增加早产风险。血液学参数如 HCT 和血小板计数也十分重要,异常的 HCT 水平(过高或过低)与不良妊娠结局相关,贫血(低 HCT 反映)会增加早产风险,而高 HCT 可能反映潜在的缺氧或血液黏稠度增加等问题;血小板计数作为凝血能力的指标,可能暗示亚临床凝血障碍或胎盘异常,这些都可能导致早产。教育水平在预测早产风险中也占据重要地位,虽然样本量有限可能影响其统计效力,但已有研究表明较低的教育水平与早产风险增加相关,这可能是因为低教育水平的女性往往难以获得充分的产前护理,健康行为较差,压力较大。此外,产妇年龄、体重和妊娠期糖尿病病史等也是重要因素,反映了它们作为已知风险因素的作用。

综合来看,本研究表明早产是由生理、社会经济和行为等多因素相互作用导致的。这强调了在孕期护理中采用综合护理方法的必要性,既要关注生物学因素,也要重视社会决定因素。尽管本研究存在一定局限性,但它为未来早产预测研究指明了方向,有望推动相关领域的进一步发展,最终降低早产发生率,改善新生儿健康状况。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号