斯坦福产科恢复清单（STORK）：评估门诊产后恢复的有效工具

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年04月18日 来源：JAMA Network Open 10.5

编辑推荐：

　　本文通过德尔菲共识和多中心临床验证研究，开发并验证了斯坦福产科恢复清单（STORK）。研究表明，STORK 在评估门诊产后恢复方面具有良好的效度、信度和反应度，可用于产后 6 周的门诊评估，为产后恢复评估提供了新的有效工具。

　　### 引言
每年，美国约有 360 万人、全球约有 13400 万人经历分娩。患者报告结局指标（PROMs）是一种低成本工具，能有效筛查大量人群的健康状况，且医护人员使用时无需太多培训。虽然 PROMs 被视为衡量分娩后恢复情况的标准指标，也用于评估恢复的各个领域，但产后恢复独特又复杂，难以定义和全面测量。
住院和门诊产后恢复都是多因素构成的复杂过程。目前，10 项产科恢复质量（ObsQoR - 10）PROM 是评估所有分娩方式后住院产后恢复的最佳工具，已在多种医疗环境和语言中得到验证。然而，门诊恢复更为复杂，包含 13 个领域，全面评估颇具挑战。现有的全球门诊产后恢复 PROM 存在显著局限性，缺乏内容效度，多数并非针对产后特定恢复领域设计。
本研究旨在通过德尔菲共识法，与多学科利益相关者和患者代表共同开发一种全球门诊产后恢复 PROM，并在美国多中心环境中评估其心理测量属性（效度、信度和反应度）。

方法

PROM 开发：经斯坦福大学机构审查委员会批准后，依据患者报告结局测量信息系统（PROMIS）方法并在专家（S.J.）的参与下开发 PROM。斯坦福产科恢复清单（STORK）的开发分三个阶段：第一阶段，通过已发表的系统评价和国际健康结果测量联盟的建议，确定与产后恢复相关的现有问题。第二阶段，采用德尔菲法（2021 年 1 月 11 日 - 4 月 12 日）筛选 STORK 项目。参与德尔菲过程的有 16 位来自不同领域的专家及患者代表。第三阶段，对 10 名产后个体进行认知反馈访谈，试用并获取对拟议 STORK 项目的反馈。
多中心 STORK 临床验证队列研究：经斯坦福大学、西北大学和布里格姆妇女医院机构审查委员会批准，于 2022 年 6 月 13 日 - 2023 年 2 月 28 日招募产后住院个体参与评估 STORK 的队列研究。该研究遵循流行病学观察性研究报告加强（STROBE）指南。
纳入和排除标准：纳入 18 岁以上、能读写英语的女性，涵盖所有分娩方式、麻醉方式、妊娠情况（单胎或双胎）、孕周和产次。排除不符合上述标准、拒绝参与或无法读写英语的个体。
数据收集：基线（招募当天）收集人口统计学、医学、产科、麻醉数据及社会支持水平。在产后 2 周、6 周和 12 周，邀请个体使用 REDCap 软件完成两个电子 PROM。一个是新开发的 STORK，另一个是 EuroQoL 五维三级（EQ - 5D - 3L），EQ - 5D - 3L 还包含一个全球健康视觉模拟量表（GHVAS）。
研究结果：在产后 6 周（主要结局时间点）评估 STORK 的效度和信度，在所有时间点评估反应度和可行性。效度包括结构效度（用均方根残差 RMSR 评估，RMSR < 0.08 表示拟合良好）、聚合效度（与 GHVAS 和 EQ - 5D - 3L 评分的相关性）、区分效度（根据 GHVAS 评分≥70 和 < 70 区分恢复良好和不佳的患者的 STORK 评分差异）、假设检验（对比初产妇和经产妇、新生儿是否入住 NICU、5 分钟 Apgar 评分不同及住院时间长短的个体的 STORK 评分）以及对 STORK 评分最高和最低 10% 的个体进行电话访谈。信度通过内部一致性（Cronbach α）、项目间相关性、分半信度和地板效应与天花板效应评估。反应度通过从出院到产后 12 周整体或个体领域评分的百分比变化评估。可行性包括响应率和自我报告的完成时间中位数。
统计分析：参考先前验证研究和专家建议确定样本量，预计门诊环境中约有 20% 的脱落或无应答率。使用 Stata 14.0 进行分析，数据以均值（标准差）、中位数（四分位间距）和数量（百分比）表示，并给出 95% 置信区间。用 Shapiro - Wilk 正态性检验检验连续数据的正态性，用探索性因子分析评估因子效度，用 Pearson 或 Spearman 相关系数计算相关性，用方差分析或 Wilcoxon 符号秩检验比较连续数据，用 χ²检验或 Fisher 精确检验比较分类数据。用 Cronbach α、项目间相关性和分半信度评估内部一致性，用 Cohen 效应量和自抽样置信区间评估反应度，P < 0.05 为差异有统计学意义。

结果

德尔菲过程中，第一轮考虑了 500 个项目，第二轮 165 个，第三轮 47 个。最终确定的 47 项 STORK 在 10 名产后个体中进行了试用。研究期间，3 个中心共招募了 525 名个体，498 名（平均年龄 33.3±4.9 岁）完成了基线住院产后调查，6 周响应率为 62%（324/525）。

STORK 的心理测量评估：STORK 在 6 周时显示出良好的结构效度，4 因子模型拟合最佳（RMSR = 0.05）。与 GHVAS 评分的相关性系数 ρ = 0.52（95% CI：0.43 - 0.61），与 EQ - 5D - 3L 评分的相关性系数 ρ = -0.67（95% CI： - 0.76 - - 0.63），能区分恢复良好和不佳的患者（良好恢复：STORK 中位数为 151 [IQR：136 - 163]，不佳恢复：中位数为 129 [IQR：107 - 148]，P < 0.001）。电话访谈结果与患者报告相符。
信度和反应度：STORK 信度良好（Cronbach α = 0.92，项目间相关性 r = 0.20，分半信度 ρ = 0.98）。从基线到产后 12 周，STORK 评分增加，不同分娩方式的增加百分比不同（自然阴道分娩 19%，手术阴道分娩 31%，计划剖宫产 27%，非计划剖宫产 20%，P < 0.001）。完成时间中位数在 5 - 10 分钟，表明其可行性良好。

讨论

在这项涉及美国 3 个州产后个体的队列研究中，STORK 在产后 3 个月内的效度、信度、反应度和可行性方面表现良好。其严格的开发过程和在不同地理区域患者队列中的验证，支持进一步研究将其作为产后 6 周产科随访评估工具。
现有评估门诊产后恢复的 PROMs 存在不足，STORK 通过严谨的开发和验证过程，解决了这些问题。与其他相关工具相比，如产后健康评估调查（PAHS）包含 110 多个问题，需约 60 分钟完成，且未涵盖产后睡眠、母婴体验等重要方面；美国妇产科医师学会的产后护理清单不是 PROM，无法纵向跟踪恢复情况。
STORK 主要为临床使用而开发，也有作为研究工具的潜力，可用于跟踪医院干预措施对门诊恢复的影响。但仍需在不同医院环境、不同种族和民族队列、不同产科和医疗疾病群体中进行评估，还需开发翻译版本。此外，恢复过程是动态的，STORK 可能需要针对不同时间点进行调整。同时，还需研究不同形式（纸质版、REDCap 版、护士读出问题版等）对 STORK 的影响，以及如何通过激励措施或在线签到流程提高响应率。

局限性

本研究存在一定局限性。在开发过程中，仅从 16 个全球 PROM 中选取问题，未涵盖先前范围审查中确定的 201 个单领域 PROM，这是为了确保可行性、提高依从性和及时完成德尔菲过程。专家小组主要来自美国，可能未纳入非美国医疗环境中与恢复相关的项目。
6 周时响应率为 62%，但无应答者与应答者在人口统计学、产科、麻醉和新生儿变量方面存在差异。研究仅从 3 个美国学术中心招募个体，参与者多为白人，年龄中位数高于全国平均水平，手术阴道分娩人数较少。未来需在更多种族和民族少数群体、农村和私人诊所、其他美国州和其他国家以及不同医保覆盖的人群中评估 STORK，还需邀请非英语使用者完成翻译版本，以评估其有效性、可靠性和反应度。

结论

本研究开发并验证了 STORK，发现它是一种有效、可靠且反应灵敏的门诊全球产后恢复 PROM。未来研究需将其与标准护理进行比较，评估其临床实用性，并在不同患者群体、语言和医疗环境中评估其性能。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号