双重去偏机器学习揭示17OHP-C试验矛盾:早产预防疗效的可迁移性分析

【字体: 时间:2025年09月25日 来源:American Journal of Epidemiology 4.8

编辑推荐:

  本刊推荐:针对17OHP-C预防早产(PTB)的Meis试验与PROLONG试验结果存在矛盾(风险差RD分别为-18.6%和1.2%),研究团队采用双重去偏机器学习(DDML)技术开展疗效可迁移性分析。通过双向迁移估计发现,基于观测协变量的效应修饰因素无法解释疗效差异,提示存在未测量的生物学或环境效应修饰因子。该研究为临床试验异质性分析提供了创新方法学框架。

  

在围产医学领域,早产(Preterm Birth, PTB)始终是困扰临床医生的重大难题。全球范围内约有10%的新生儿为早产儿,这些婴儿不仅面临更高的死亡风险,更可能遭受长期健康问题的困扰。尤其令人担忧的是,早产发生率的种族、民族和社会经济差异显著,使得这一问题更具公共卫生紧迫性。

2003年,一项名为Meis的里程碑式随机对照试验给人们带来了希望。该研究发现,每周注射17α-羟孕酮己酸酯(17-alpha-hydroxyprogesterone caproate, 17OHP-C)可使有自发早产史孕妇的复发风险降低18.6%(95%置信区间:-28.2%至-9.2%)。这一结果如此令人鼓舞,以至于试验提前终止,美国食品药品监督管理局(FDA)也通过加速审批程序批准了该药物,但要求进行验证性试验。

然而,科学验证的道路并非一帆风顺。随后开展的PROLONG试验(Progestin's Role in Optimizing Neonatal Gestation)却得出了截然不同的结果:17OHP-C组与安慰剂组之间的风险差仅为1.2%(95%置信区间:-3.0%至5.3%),没有显示任何显著保护效应。这一矛盾结果最终导致制药公司主动将17OHP-C从市场撤回,使临床医生和患者陷入了治疗选择的困境。

为什么两个设计方案几乎相同的试验会产生如此迥异的结果?主流假设认为,这可能源于两个试验人群在早产风险特征上存在显著差异。Me试验仅在美国进行,而PROLONG试验主要在東欧国家招募参与者;Meis试验参与者中非西班牙裔黑人比例高达59%,而PROLONG中这一比例仅为7%;此外,两组人群在既往早产次数、体质指数(BMI)、教育年限、妊娠期物质使用等方面都存在明显差异。

为解开这一科学谜团,由宾夕法尼亚大学Arti V. Virkud领衔的研究团队在《American Journal of Epidemiology》上发表了一项创新研究。他们运用先进的可迁移性(Transportability)方法,结合双重去偏机器学习(Doubly Debiased Machine Learning, DDML)技术,试图回答一个关键问题:两个试验结果的矛盾是否能够通过已测量的基线特征差异来解释?

研究团队从AMAG Pharmaceuticals公司获得了两个试验的匿名临床数据。Meis试验包含463名美国孕妇参与者,而PROLONG试验规模更大,包含1,708名来自9个国家93个中心的参与者。两项试验都是随机、安慰剂对照、双盲研究,比较17OHP-C与安慰剂对至少有一次自发早产史的孕妇的效果。两个试验中,孕妇参与者从妊娠16周至20周6天开始每周接受注射直至分娩。

研究采用的关键技术方法包括:基于双重去偏机器学习(DDML)的可迁移性分析框架,使用SuperLearner集成学习算法(包含广义线性模型、广义加性模型、梯度提升机、随机森林、XGBoost和神经网络)拟合 nuisance 函数,通过交叉验证和10,000次非参数bootstrap计算置信区间,并针对美国人群和不同临床亚组(如仅有一次早产史者)进行分层分析。

数据源与研究人群

研究人员首先复制了两个试验的基线特征描述性统计结果。与PROLONG试验参与者相比,Meis试验参与者有更多的既往早产次数、 qualifying PTB(获得试验资格的最近一次早产)的孕周更小、BMI更高、教育年限更少、妊娠期更可能使用物质,并且更可能自我认同为非西班牙裔黑人。这些差异共同解释了为何Meis试验安慰剂组的早产风险(54.9%)远高于PROLONG试验(21.9%)。

统计分析

研究团队首先估计了未经调整和经过调整的风险差异。Meis试验中,17OHP-C与安慰剂相比的未经调整风险差为-18.6%(95%置信区间:-28.2%至-9.2%),调整后为-17.5%(-27.2%至-7.8%)。PROLONG试验中,相应的未经调整风险差为1.2%(-3.0%至5.3%),调整后为1.0%(-3.1%至4.8%)。调整的协变量包括 qualifying PTB的孕周、既往早产次数、母亲年龄、种族/民族、婚姻状况、孕前BMI、教育年限、妊娠期吸烟、饮酒和物质使用情况。

随后,研究人员运用可迁移性方法,将Meis试验的意向治疗效应迁移到PROLONG研究人群,并将PROLONG的效应迁移到Meis研究人群。这种方法基于以下因果识别假设:1)条件可交换性(治疗组间基线混杂因素平衡);2)潜在结果一致性;3)治疗分配正性;4)试验参与的条件可交换性(效应修饰因素平衡);5)试验参与正性。

结果

研究发现,将Meis效应迁移到PROLONG人群的估计风险差为-18.6%(95%置信区间:-55.9%至8.8%),而将PROLONG效应迁移到Meis人群的估计风险差为5.2%(-17.3%至18.1%)。PROLONG调整后风险差与Meis-to-PROLONG迁移效应之间的差异为19.6%(-8.1%至57.3%),而Meis调整后风险差与PROLONG-to-Meis迁移效应之间的差异为22.7%(-37.9%至2.0%)。

限制在美国试验人群和仅有一次早产史的参与者中进行分析,结果与主要分析相似。将Meis迁移到美国PROLONG人群的双重稳健估计有所减弱(-14.6%,95%置信区间:-36.7%至4.8%)。其他亚组和敏感性分析未产生实质性不同的结果,仅少数例外。

当考察自发早产结局时,从Meis迁移到PROLONG的DDML点估计更接近PROLONG观察到的零效应(风险差-3.6%,95%置信区间:-42.5%至20.7%),但从PROLONG迁移到Meis时未出现类似情况(5.3%,-12.6%至20.8%)。考察早产胎膜早破分娩结局时,两个方向都显示出更大的一致性(PROLONG到Meis风险差-1.9%,-16.1%至11.5%;Meis到PROLONG风险差-1.4%,-14.3%至10.9%)。

讨论与结论

这项研究尝试使用可迁移性方法来调和Meis和PROLONG试验的矛盾结果,但未能通过将PROLONG的因果效应迁移到Meis试验人群来恢复Meis中观察到的保护效应。将Meis效应迁移到PROLONG人群时,DDML估计量产生了较大的保护性点估计(与PROLONG研究的近似零点估计相反),但置信区间较宽,包含了恢复PROLONG观察到的因果效应的情景。

研究人员认为,有几个可能的原因解释为什么无法完全调和两个试验的结果。首先是存在未测量的效应修饰因素。两个试验人群在获得高质量护理的机会、种族主义和生活经历、以及试验进行时代背景下的护理和17OHP-C可获得性变化等方面可能存在显著差异,这些因素可能作为效应修饰因子发挥作用。

其次是Meis试验中可能存在偶然失衡。安慰剂组中曾有多次早产的参与者比例更高(41.2%对27.7%),这种测量变量的失衡引发了对其他未测量变量也可能在试验中偶然失衡的担忧。研究人员使用Vanderweele偏倚方程评估了未测量混杂因素的影响,发现如果存在与治疗组和早产都相关的未测量混杂因素(如宫颈长度),可能会解释两个试验间的结果差异。

最后,即使所有识别假设都满足,仍可能由于两个试验间的其他差异(如导致基线后混杂的方案偏离)而无法调和矛盾结果。

这项研究的重要意义在于它开发了一种先进方法学框架,将现代机器学习技术与可迁移性理论相结合,为解决临床试验结果矛盾提供了新思路。虽然研究未能完全解释17OHP-C试验结果的差异,但它排除了已测量效应修饰因子的解释作用,将未来研究的方向指向了生物学、遗传学或环境效应修饰因子等未测量特征。

研究建议未来工作应探索更复杂的效应修饰关系,通过个体治疗规则和分组平均处理效应来确定哪些患者亚组可能经历更多或更少的保护效应。同时,也需要收集更多关于未测量特征的数据,以揭示有早产史孕妇中的潜在异质性。

这项研究不仅对早产预防领域有直接贡献,其方法学创新也为整个临床研究领域提供了解决试验结果异质性的重要工具,有助于推动精准医学在围产健康中的应用发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号