编辑推荐:
在观察性研究中,未测量混杂因素影响因果参数估计准确性。研究人员围绕利用关联数据估计平均治疗效应(ATE)展开研究,提出三重稳健估计量。该成果可在模型部分误设时仍保持一致性,为因果推断提供了更可靠的方法。
在医疗和健康研究领域,观察性研究是探索因果关系的重要手段,但未测量的混杂因素一直是困扰研究人员的难题。想象一下,在研究某种药物对疾病治疗效果时,可能存在一些因素,比如患者的生活习惯、遗传背景等没有被测量到,这些因素就像隐藏在黑暗中的 “捣蛋鬼”,干扰着研究人员对药物真实疗效的判断,导致因果参数的估计出现偏差。随着大数据时代的到来,各种数据源不断涌现,数据关联技术为解决这一难题带来了希望。通过将不同来源的数据进行关联,理论上可以纳入更多的混杂因素信息,让研究结果更加准确。然而,新的问题又出现了,数据关联往往只能针对部分研究人群,这就像从一个大池塘里只捞出了一部分鱼来研究,可能会产生选择偏倚,使得研究结果无法代表整个群体。在这样的背景下,开展一项能够解决这些问题的研究迫在眉睫。
来自国内的研究人员为了解决这些问题,展开了关于利用关联数据进行因果效应多重稳健估计的研究。他们的研究成果具有重要意义,为观察性研究中因果效应的准确估计提供了新的方法和思路,相关论文发表在《Computational Statistics 》上。
研究人员在研究过程中用到了多种关键技术方法。首先,他们基于潜在结果框架(Rubin 1974)定义因果效应,并做出稳定单位治疗值假设。然后,通过建立三个非参数识别公式,推导平均治疗效应(ATE)的有效影响函数(EIF),进而提出三重稳健估计量。在模拟研究中,设定特定的数据生成机制,包括对协变量、选择机制、治疗分配等进行建模。在实证研究部分,利用 2018 年美国医疗支出面板调查(MEPS)的主要数据和辅助数据进行分析。
下面来详细看看研究结果:
- 符号、假设和识别:在估计二元治疗 Z 对结果 Y 的平均治疗效应(ATE)时,研究人员采用潜在结果定义因果效应,假设每个单元有单一版本的潜在结果且单元间无干扰。在此基础上,建立了三个不同的识别公式,这些公式是后续估计方法的基础。
- 半参数估计:由前面的三个识别公式推导出三个估计量,其一致性和渐近正态性依赖于不同干扰函数的正确设定。研究人员使用工作模型来表示选择概率、倾向得分等,通过这些模型构建估计量。同时,推导出 ATE 的有效影响函数(EIF),并提出具有三重稳健属性的半参数估计量。这意味着只要三个不同部分的似然模型中至少有一个正确,该估计量就是一致的;如果所有模型都正确指定,则能达到局部效率。而且,即使使用机器学习方法得到的灵活模型,该估计量仍能保持一致性和渐近正态性。
- 相对风险的三重稳健估计:研究人员将提出的方法进行扩展,探索二元结局下的因果风险比(CRR)。建立了 CRR 的非参数识别结果,这为研究不同治疗方案对疾病发生风险的影响提供了新的视角和方法。
- 模拟研究:研究人员对提出的估计量在连续结局和二元结局的各种设置下进行有限样本性能评估。在连续结局模拟中,设定了完全观察到的协变量 X 服从正态分布X~N(0,1) ,选择机制为pr(R=1∣X)=expit(0.75+0.5X) 等。通过模拟研究,可以直观地了解估计量在不同情况下的表现,评估其准确性和稳定性。
- 实证研究:研究人员以美国成年人身体活动对医疗保健支出的因果效应为例进行实证研究。分析了 2018 年医疗支出面板调查(MEPS)的主要数据和辅助数据,从实际数据中验证了研究方法的有效性和实用性。
研究结论表明,研究人员提出的三重稳健估计量在处理关联数据中的未测量混杂因素和选择偏倚问题上具有显著优势。在多种模型设定下都能保持一致性,并且在模型全部正确指定时达到局部效率。这一成果不仅为因果效应的估计提供了更可靠的方法,还拓展了因果推断在复杂数据情况下的应用范围。同时,研究人员也指出研究中涉及的块缺失问题在数据融合或关联数据集中较为常见,在未来的研究中需要进一步关注和深入探讨。总之,这项研究为生命科学和健康医学领域的观察性研究提供了重要的方法学支持,有助于研究人员更准确地评估各种干预措施的因果效应,为临床决策和公共卫生政策制定提供更科学的依据。