利用观测数据进行因果推断的针对性最大似然估计——以私人辅导为例
《Multivariate Behavioral Research》:Targeted Maximum Likelihood Estimation for Causal Inference With Observational Data—The Example of Private Tutoring
【字体:
大
中
小
】
时间:2025年11月22日
来源:Multivariate Behavioral Research 3.5
编辑推荐:
本文使用目标最大似然估计(TMLE)方法,分析了一项观测数据(来自国家教育追踪研究第三起始队列,N=4167)中私人辅导对数学能力和期末成绩的影响。比较了TMLE、普通最小二乘法(OLS)、参数G公式和增强逆概率权重估计器(AIPW)的估计结果,发现TMLE显著降低了估计效应值,特别是在数学能力作为结果时,效应接近零且不显著。研究强调,采用先进的因果推断方法如TMLE在处理复杂观测数据时的重要性,以及方法选择对结论的影响。
在当前的研究中,我们探讨了使用现代因果推断方法对观察性数据进行分析的潜力,特别是通过目标最大似然估计(TMLE)来减少模型误设偏差,从而提高因果效应估计的准确性和效率。这一方法在处理复杂的观察性数据时展现出了独特的优势,尤其是在处理变量间的非线性关系和交互效应方面,使得研究者能够在不依赖严格的参数假设的情况下获得更稳健的因果估计。本研究利用了德国国家教育追踪调查(NEPS)第三批数据,分析了在七年级接受私人辅导对数学能力和期末成绩的影响,并将TMLE的估计结果与普通最小二乘法(OLS)、参数化G公式和增强逆概率加权估计(AIPW)进行了对比。
首先,我们回顾了因果推断的基本假设和挑战。传统的因果推断方法,如随机对照试验(RCTs)和自然实验,通常被认为是因果估计的“黄金标准”,但它们在实际应用中存在诸多限制,包括伦理问题、成本问题以及无法确保随机分配的条件。因此,研究者往往需要依赖观察性数据,并在这些数据中应用因果推断方法。在观察性研究中,由于数据来源的复杂性和可能的混淆变量,因果推断面临诸多挑战,如选择偏差、未观测混淆变量以及非线性关系和交互效应的处理。
为了克服这些挑战,我们采用了TMLE方法,这是一种双稳健、半参数、高效的替代估计方法。TMLE通过结合结果模型和处理模型的信息,能够在仅有一个模型正确指定的情况下保持估计的一致性。此外,TMLE允许使用非参数机器学习技术,如超级学习器(SL),来估计数据分布的各个组成部分,从而降低模型误设的风险,并提高估计的效率。我们通过在研究中使用SL,能够灵活地处理非线性关系和交互效应,而无需预先指定具体的函数形式或交互项。
我们分析了私人辅导对数学能力的影响,并发现不同方法在估计结果上存在差异。例如,TMLE的估计结果与OLS和参数化G公式相比更为保守,其效应大小减少了约三分之一,且在某些情况下未达到统计显著性。这一结果可能反映了TMLE在处理复杂数据结构时更谨慎的态度,同时也可能意味着在某些情况下,传统方法可能更有效地捕捉到因果效应。然而,值得注意的是,这些差异并不意味着所有方法都无效,而是反映了不同方法在处理数据时的不同策略和假设。
在分析私人辅导对期末成绩的影响时,我们发现所有方法的估计结果均未达到统计显著性。这表明,私人辅导对期末成绩的影响可能较为微弱,或者存在其他未被考虑的混淆因素。TMLE在这一分析中表现出了一定的稳健性,其估计结果更接近于零,这可能意味着在处理这些数据时,TMLE能够更有效地控制偏倚,尤其是在处理非线性关系和交互效应时。
我们还探讨了使用超级学习器(SL)在不同模型中的表现。对于数学能力的估计,高度自适应的Lasso和随机森林等非参数模型通常表现优于传统的广义线性模型(GLM)。然而,对于处理模型,GLM在某些情况下仍然表现良好,尤其是在处理简单的线性关系时。这表明,在实际应用中,选择适合数据结构的模型是非常重要的,研究者需要在参数模型和非参数模型之间进行权衡,以达到最佳的估计效果。
在处理缺失数据时,我们采用了多重插补(MICE)方法,并通过使用分类和回归树(CART)来捕捉非线性和交互效应。然而,CART在处理线性主效应时可能存在局限性,因此,在某些情况下,简单的参数模型可能更有效。此外,我们还探讨了在处理缺失数据时,如何通过引入缺失指示变量来改进估计,但这仍然存在一定的局限性,需要进一步研究。
最后,我们讨论了TMLE方法在因果推断中的优势和局限性。TMLE通过结合处理模型和结果模型的信息,能够在减少模型误设偏差的同时提高估计的效率。然而,TMLE仍然依赖于选择偏差的假设,即所有相关的混淆变量都被观测到。因此,在某些情况下,研究者可能需要进一步限制研究问题,以确保估计的稳健性。此外,TMLE在处理分层数据时可能需要进行特定的调整,以确保估计的准确性。
综上所述,本研究展示了TMLE方法在处理观察性数据时的优势,特别是在减少模型误设偏差和提高估计效率方面。尽管TMLE在某些情况下可能不如传统方法有效,但它提供了一种更为灵活和稳健的因果推断框架,能够更好地应对观察性数据中的复杂关系和潜在的混淆因素。未来的研究可以进一步探索TMLE在处理更复杂的数据结构和研究问题时的表现,以及如何结合其他现代因果推断方法以提高估计的准确性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号