综述：引产时长预测模型的估计：一项系统评价与批判性评估

《Midwifery》：Predictive models for estimating the duration of labour induction: A systematic review and critical appraisal

【字体：大中小】 时间：2026年06月09日 来源：Midwifery 2.5

编辑推荐：

　　本研究旨在识别并评估用于估计引产（induction of labour）时长的预测模型，以支持个体化临床决策并优化产科资源配置。研究人员系统检索了MEDLINE（PubMed）、Scopus及Google Scholar中2000年1月1日至2025年1月5

本研究旨在识别并评估用于估计引产（induction of labour）时长的预测模型，以支持个体化临床决策并优化产科资源配置。研究人员系统检索了MEDLINE（PubMed）、Scopus及Google Scholar中2000年1月1日至2025年1月5日期间发表的研究。纳入标准为开发或验证了以连续测量值或预定义时间间隔形式表达引产时长的原始研究。偏倚风险采用PROBAST（Prediction model Risk Of Bias Assessment Tool）工具进行评估。最终共纳入9项研究，主要在高收入国家开展，样本量为204至8466名接受引产的女性。模型主要采用临床与人口学预测因子，包括Bishop评分、产次、体重指数（BMI）及孕周。逻辑回归是最主要的建模方法，其次为线性回归与机器学习。报告的区分度指标（受试者工作特征曲线下面积，AUROC）范围为0.73至0.88，经外部验证的最高AUROC为0.81（95% CI 0.78–0.83）。仅两项研究报告了校准度。依据PROBAST标准分类，所有模型均被判定为高风险或不明确偏倚风险，主要源于分析领域的局限性。尽管现有模型表现出中等至良好的内部性能，但由于方法学缺陷及缺乏外部验证，其临床适用性有限。未来研究应优先考虑校准、透明化报告及可用性测试，以确保临床实施的可靠性。

引言

引产在全球产科实践中日益普遍，在高收入国家其占比已达相当比例，反映了临床指征与指南建议的演变。虽然引产能降低母婴风险，但当产程延长时会产生重要的临床与组织影响，包括增加孕产妇发病率、满意度下降、干预率上升，以及给产科单元带来工作负荷与床位占用的压力。既往关于引产的研究主要集中在预测成功率，即引产后阴道分娩的概率，早期依赖产程进展的描述性分析与Bishop评分评估宫颈成熟度，随后发展出多变量回归模型估计阴道分娩可能性。近期预测模型开发与评估的方法学指南强调了妥善处理缺失数据、合理的预测因子筛选策略、验证与校准的重要性，PROBAST工具正是为此专门开发以评估预测模型研究的偏倚风险与适用性。与大量关于引产成功预测的文献相比，专门针对引产时长的预测模型尚未得到清晰的系统性综合。引产至分娩的间隔是一个独特且具有临床意义的构念，预测该时长不等同于预测分娩方式，前者直接关乎咨询、共同决策、资源配置与产妇体验。随着全球引产率的上升，临床问题已从“引产会成功吗？”逐渐转向“引产可能持续多久？”，然而这一时间维度仍未得到充分探索。本系统评价旨在识别并批判性评估用于估计引产时长的预测模型，通过综合现有证据并评估方法学质量，阐明该领域的现状并确定未来研究与临床实施的重点方向。

方法

本研究遵循《系统评价与Meta分析优先报告条目》（PRISMA）指南，并在国际前瞻性系统评价注册平台进行了注册。文献检索策略结合了规范术语（MeSH）与关键词，涵盖“引产”“宫颈成熟”“时间因素”“产程分期”“产程时长”“试验的预测价值”“风险评估”及“统计模型”等概念，检索时限为2000年1月1日至2025年1月5日，信息源包括MEDLINE（PubMed）、Scopus及Google Scholar，限定发表语言为英语和法语。纳入标准为描述引产时长预测模型推导和/或验证的原始研究，排除主要依赖生化生物标志物的模型，以确保纳入研究使用的临床或人口学数据能被产科医护人员常规获取。结局指标为引产时长，可表示为小时数或特定时间窗内是否分娩。

筛选与数据收集

由一名研究人员使用Rayyan软件对标题、摘要及全文进行筛选，并采用标准化数据收集表依据CHARMS（Critical Appraisal and Data Extraction for Systematic Reviews of Prediction Modelling Studies）框架提取数据。提取内容包括研究设计、环境、参与者特征、结局定义、候选与最终预测因子、样本量、建模策略、验证方法（内部与外部）、性能指标及缺失数据处理。为确保选择可靠性，另一名合著者独立重新筛选了20%的排除记录和全部纳入研究，评审者间一致性极高。数据合成采用叙述性综合分析，因研究间变量、人群选择、样本量及临床实践存在显著异质性，预先确定不进行Meta分析。性能指标包括二分类结局的区分度指标（如AUROC、敏感度、特异度）及连续结局的方差解释或预测误差指标（如R²、平均绝对误差）。

偏倚风险评估

采用PROBAST工具评估纳入研究的偏倚风险与适用性，从参与者、预测因子、结局和分析四个领域进行评价。风险等级分为低、不明确和高，整体偏倚风险判定规则为：任一领域为高则整体为高，所有领域均为低则整体为低，其余情况为整体不明确。分歧通过第二名研究人员核查后达成共识解决。

结果

研究筛选流程最终从908条记录中排除重复与不符合标准的文献，共纳入9项研究，发表于2016年至2025年间，多数在高收入国家开展，样本量中位数为1994例。八项为回顾性队列研究，一项为前瞻性队列研究。五项研究专门针对初产妇，六项纳入引产起始时宫颈条件不成熟的人群。引产方法最常用阴道地诺前列酮，常与催产素联用，少数病例使用Foley球囊等机械方法。

预测模型的性能

研究识别出三种不同的结局构念：连续时长模型预测引产至分娩的间隔小时数；二分类时间阈值模型预测是否在预设时间窗内分娩；二分类引产成功模型预测阴道分娩与剖宫产，不涉及时间因素。这些构念对应不同的临床问题与统计学框架，性能指标不可直接比较。在预测时点方面，四项模型专为引产起始时使用基线变量设计，五项研究纳入了引产开始后测量的预测因子或其时点未明确定义，可能引入时间依赖性偏倚并限制床旁即时应用。连续时长模型主要采用线性回归，报告R²值在0.47至0.62之间，平均绝对误差为4.2小时，未进行外部验证，也未通过校准图或回归校准指标评估预测与实际分娩时间的一致性。二分类时间阈值模型以逻辑回归为主，区分度AUROC介于0.73至0.81之间，外部验证模型的性能往往低于仅开发模型，提示可能存在过拟合；仅两项研究报告了校准评估，且仅限于图形检查或Hosmer-Lemeshow检验，未报告校准截距与斜率。非时间性的引产成功模型AUROC最高达0.88，其中一项研究通过校准图进行了校准评估。

模型开发与验证阶段

从模型成熟度来看，所有研究仍处于早期阶段。连续时长模型多为纯开发研究，无正式内部验证；二分类时间阈值模型中部分包含交叉验证等内部验证程序，仅一项在独立队列中进行了外部验证；非时间性引产成功模型均为开发研究，未进行后续影响评估。九项研究中有七项处于推导阶段，一项包含外部验证，无一项进展到评估模型指导决策能否改善临床或组织结局的影响分析阶段。

偏倚风险评估结果

在分析领域偏倚风险最为突出，六项研究被判定为高风险，主要问题包括使用单变量筛选预测因子、缺失数据处理报告不足或仅采用完全病例分析、缺乏适当的内部验证程序以及校准评估缺失或极为有限。参与者领域四项研究为低风险，五项为不明确风险；预测因子领域三项为高风险，四项为低风险，两项为不明确风险；结局领域相对稳健，六项为低风险，三项为不明确或高风险。综合评定七项研究整体为高风险，两项为不明确风险，无研究达到整体低风险。适用性方面，三项研究适用性担忧为低，三项为高，其余为不明确。高适用性担忧主要源于纳入引产开始后的预测因子、超声衍生变量或非时间性结局，无法直接回答引产起始时的时长预测问题。

讨论

本研究首次对引产时长预测模型进行了专门综合。纳入研究的一个优势是使用具有临床意义且易于获取的预测因子，最常见的是产次、体重指数和孕周。尽管部分二分类时间阈值模型显示出良好的内部区分度，最高AUROC超过0.80，与非应激试验等已建立的产科预测工具相当，且有一项研究引入了机器学习方法并报告了稳健的区分度与校准图，但整体方法学质量仍不足以支持常规临床应用。方法学弱点集中在分析领域，包括不恰当的变量筛选、缺失数据处理不当、验证不足及校准缺失。此外，检索策略未涵盖EMBASE或CINAHL数据库，且限定英语和法语文献，可能遗漏相关研究。研究人群在地域与时间上的差异也限制了模型的普适性。PROBAST评估揭示了当前模型的局限性，而TRIPOD（Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis）报告规范的依从性不足进一步阻碍了透明度与可重复性。连续结局模型虽能提供精确的时长估计以支持后勤规划，但同样面临校准与验证不足的困境。未来模型开发应依托多中心队列，保留连续型预测因子，将校准、外部验证与临床效用分析（如决策曲线分析）作为标准流程，并通过技术接受模型等框架实证评估可用性。预测本身并不等同于临床获益，模型必须经过前瞻性影响研究证实其能改善结局、提升满意度或工作效率，才能从研究方法转化为临床工具。在模型成熟度提高之前，其使用应保持探索性质，并与临床判断相结合。

结论

引产时长预测是改善产科护理的重要且未被充分利用的机会。现有模型为实现这一目标奠定了基础，但在方法学严谨性、验证及临床整合方面仍需改进。未来工作应优先考虑普适性、透明度以及与临床工作流程现实的契合，以确保这些模型能够实现支持个体化、循证产科护理的承诺。

热点排行