双重交叉拟合靶向最大似然估计中分割与重复次数的优化策略及其在肥胖与糖尿病关联研究中的应用

【字体: 时间:2025年09月13日 来源:Pharmaceutical Statistics 1.4

编辑推荐:

  本综述系统探讨了双重交叉拟合(DCF)在靶向最大似然估计(TMLE)框架中的应用,重点分析了不同数据分割数(p)和重复次数(r)对估计偏差、方差及覆盖率的影响。通过模拟研究与真实世界数据分析(基于NHANES 2017-18周期数据),研究揭示DCF TMLE在五分割(p=5)配置下表现最优,且重复次数超过25次后性能提升有限。研究强调需平衡计算效率与统计推断准确性,为因果推断中复杂机器学习算法的应用提供重要实践指导。

  

1 引言

1.1 TMLE框架与交叉验证

模型错误设定是流行病学分析师处理真实世界数据时面临的主要挑战。双重稳健方法(如靶向最大似然估计TMLE)结合机器学习方法,常被视为潜在解决方案。TMLE是一种基于半参数理论的插件估计量,利用从高效影响曲线推导出的影响函数构建而成。

在TMLE中,通过超级学习者(Super Learner)实现机器学习在 nuisance 估计中的应用,这是一种集成方法,结合多个候选算法并通过交叉验证评估和优化这些学习器的权重。通过纳入多样化的候选模型,超级学习者有助于解决模型错误设定问题,增强TMLE在实际应用中的稳健性。然而,高度灵活的学习器(如随机森林或提升树)可能违反经验过程条件,特别是Donsker类假设,这导致在使用此类学习器时对置信区间的偏差和覆盖不足产生担忧。

为避免这些问题,一种选择是将超级学习者库限制为更简单、符合Donsker条件的算法(如回归样条),前提是由此产生的 nuisance 估计量仍然收敛足够快,以满足其误差乘积保持 op(n?1/2) 的条件。然而,这种限制可能会降低适应性,并限制捕获数据中复杂关系的能力。

Newey和Robins在基础工作中预计到需要避免Donsker类条件,他们表明样本分割和欠平滑可以缓解这些问题,并改善非参数和高维设置中的估计。基于这一见解,开发了交叉验证TMLE(CV-TMLE),在交叉验证方案的每个折中应用TMLE并汇总结果,从而能够使用灵活的机器学习方法而无需依赖Donsker假设。尽管有这些理论优势,CV-TMLE并非“tmle”R包中的默认设置,在实践中较少使用,主要由于增加了计算复杂性。相反,该包中的实现采用更简单的默认方法,仅交叉验证初始结果模型而非完整TMLE过程,并且已被证明在实践中提供类似性能。

1.2 DDML框架中的单交叉拟合

最近,提出了双/去偏机器学习(DDML)框架来估计因果效应。与TMLE类似,该框架也基于统计半参数理论,旨在减少纳入机器学习进行 nuisance 函数估计时的偏差。TMLE可被视为这类更广泛的正交化、双重稳健估计量中的一种相关方法。

为应对在DDML框架内使用违反Donsker条件的灵活学习器导致无效推断的风险,研究人员实施了单交叉拟合(SCF)程序,将可用数据分为两部分(即折或分割)。第一个分割用于训练(或拟合)nuisance模型,如倾向评分模型和结果回归模型。一旦这些模型在第一个分割上训练完成,它们便用于对第二个分割进行预测。接下来,分割的角色互换,确保所有观测都获得样本外预测。SCF的概念可以通过将数据分为多个(p)折或分割并通过重复折创建过程r次自然扩展,类似于具有r次重复的p折交叉验证过程。这种重复有助于减轻任何单一数据分区对最终估计的影响,使过程对潜在偏差源更加稳健。

然而,研究人员指出,SCF程序的结果可能依赖于所选的随机数种子,并建议使用更多分割以避免这种依赖性。在增强逆概率加权(AIPW)(另一种双重稳健方法)的一项应用中,作者使用了p=10 SCF分割。在DDML框架中,建议p=2或p=5分割对于SCF比任何更少的分割数表现更好,且p=5分割可作为合理的基线。

1.3 TMLE框架中单交叉拟合的适应

由于其潜力,交叉拟合也在最近通过“tmle3”包在TMLE实现中得到考虑。最近在高维混杂设置中的模拟研究发现,虽然各种双重稳健方法(如AIPW和TMLE)表现相似,但TMLE表现出更大的稳定性,且交叉拟合特别有利于改进标准误估计而非点估计,加强了在集成方法中样本分割和谨慎学习器选择的重要性。然而,当额外的结构假设(如 nuisance 函数的H?lder平滑性)合理时,SCF可能不再是最优速率,这推动了扩展如双重交叉拟合(DCF)或更高阶估计量。

1.4 双重交叉拟合的扩展

DCF通过在不同且非重叠的数据分割上拟合治疗和结果模型,扩展了SCF的概念。这种分离有助于减轻过拟合并稳定偏差,特别是在高维或复杂设置中。理论结果表明,基于DCF的估计量可以优于基于SCF的估计量,尤其是在使用灵活机器学习方法进行 nuisance 估计时。DCF已被证明能产生具有改进偏差特性和更准确置信区间的估计。在相关的非参数估计问题(如熵或二次泛函)中,将样本分割或交叉拟合与欠平滑相结合,也在H?lder平滑性等结构假设下带来了近乎最优的速率。

1.5 文献中的空白

在此过程中分割数p的选择提供了减少偏差与在每个分割中保持足够数据以进行准确模型训练之间的权衡。然而,在DCF背景下进行的研究有限,且这些研究仅使用了p=3。从DDML(p=5)或单交叉拟合(p=10)文献中关于最优分割数的建议是否可转移到DCF文献尚不清楚。

关于DCF需要多少重复次数,文献中也没有明确的指南。虽然一些研究人员建议较少的重复次数(r=10)提供稳定的估计,但其他建议使用更高的重复次数(r=100)以获得更稳定的结果。尽管选择更高的重复次数会带来显著更高的计算成本,但我们找不到关于其有益程度的任何文献。

最近的一篇流行病学文章解释了DCF TMLE估计量的实现细节。作者使用了100次重复和3次样本分割(r=100,p=3),并对增加样本分割数表示担忧。作者认为,将数据分割过多可能会损害分析人员获得合理结果的能力,因为每个分割中的数据量减少,这在

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号