基于因果推断视角的风险因素分析:当前实践回顾与模拟比较研究

《BMC Medical Research Methodology》:Covariate selection strategies and estimands - a review of current practice of risk factor analysis from a causal perspective

【字体: 时间:2025年11月20日 来源:BMC Medical Research Methodology 3.4

编辑推荐:

  本研究针对流行病学研究中风险因素分析常混淆因果与预测目标的问题,系统回顾了三大医学期刊中回归分析与变量选择策略的现状。通过构建模拟数据集mscovid_sim,比较了传统条件比值比(CCOR)与边际因果比值比(MCOR)估计方法的性能。研究发现当前实践存在因果语言使用不一致、变量选择忽视因果结构等问题,并提出基于有向无环图(DAG)的因果推断框架可提高估计准确性,为医学研究提供方法学改进方向。

  
在医学研究中,"风险因素"这个术语常被混用于指代疾病的预测因子和因果因素,但分析中很少明确说明其因果目标。这种概念混淆导致许多风险因素分析将解释和预测混为一谈,普遍采用不适合因果推断的数据驱动变量选择方法。更值得关注的是,尽管医学期刊通常建议在观察性研究中避免使用因果语言,但许多作者仍隐晦地赋予风险因素因果定义,这可能导致从统计关联到政策建议的错误推论。
为解决这一问题,Ragna Reinhammar和Ingeborg Waernbaum在《BMC Medical Research Methodology》上发表了题为"Covariate selection strategies and estimands- a review of current practice of risk factor analysis from a causal perspective"的研究,系统评估了当前风险因素评估实践,并通过模拟研究对比了传统方法与因果推断方法的性能。
研究人员首先对2020-2021年间发表在《柳叶刀》、《英国医学杂志》和《美国医学会杂志》上的66篇观察性研究进行了系统回顾,重点关注风险因素的定义方式、协变量选择策略和回归系数的解释。随后,他们构建了一个模拟数据集mscovid_sim,模仿Louapre等人研究多发性硬化(MS)患者COVID-19严重程度风险因素的实际研究,通过蒙特卡洛模拟比较了不同估计方法的性能。
研究发现,尽管期刊指南限制使用因果语言,但59篇使用"风险因素"术语的文章中,43篇隐晦地给出了因果定义,主要表现为三种形式:将已知因果因素称为风险因素、将风险因素讨论为干预目标、以及暗示因素间存在因果顺序。在协变量选择策略方面,研究识别出三种常见做法:调整预定义集合、逐步选择法和单变量预过滤法,这些策略都未考虑变量的因果结构。
在方法论层面,研究强调了条件因果比值比(CCOR)与边际因果比值比(MCOR)的重要区别。CCOR表示在特定协变量水平下的因果效应,而MCOR表示总体人群中的平均因果效应。由于非折叠性,CCOR通常不等于MCOR,且不同研究因调整不同协变量集合而得到的CCOR缺乏可比性。
研究采用的主要技术方法包括文献系统回顾、有向无环图(DAG)构建、模拟数据生成(基于多发性硬化患者COVID-19严重程度研究)、蒙特卡洛模拟比较,以及回归插补(RI)和增强逆概率加权(AIPW)等因果估计方法。模拟研究特别关注了逻辑回归模型在不同模型设定下的性能表现。
文献回顾结果显示,逻辑回归是最常用的统计模型,其中32篇文章使用逻辑回归并报告比值比作为关联度量。协变量选择策略中,15篇文章使用预定义集合调整,13篇使用逐步选择法,11篇使用单变量预过滤法。仅有3篇文章展示了假设的潜在因果结构的图形描述。
模拟研究结果分为两个场景。场景I以疾病修饰治疗(DMT)为处理变量,所有协变量构成充分调整集;场景II以吸烟为处理变量,仅年龄和性别构成充分调整集。每个场景下又设定了三种结局模型(A、B、C)以检验方法在不同模型误设情况下的稳健性。
结果显示,未调整比值比在两种场景下均存在显著偏倚。条件估计量θ^ttreg在不同协变量选择策略下表现不一致,且通常不等于MCOR。相比之下,回归插补(RI)和增强逆概率加权(AIPW)等边际估计量在不同模型设定下表现更为稳健。非参数方法(如随机森林)在某些情况下的表现反而差于参数方法,特别是在样本量相对较小时。
场景I中,DMT处理效应估计显示,未调整估计量系统性低估比值比,而条件估计量通常高估效应。参数边际估计量在所有结局模型下均表现良好,而非参数估计量倾向于低估非零对比。场景II中,吸烟处理效应估计进一步证实了传统方法的局限性,边际估计量表现出更小的均方误差。
研究结论强调,风险因素分析中预测性和因果性目标常被混淆。当目标是因果推断时,应明确定义感兴趣的效应量,并基于潜在因果结构选择变量。模拟研究证明了当前回归实践可能无法恢复风险因素的因果效应。无论是因果还是预测目标,都应明确陈述,分析与结论应与既定目标一致。
该研究的重要意义在于为医学研究者提供了清晰的因果推断框架,强调了基于DAG的变量选择原则和边际效应估计的优势。对于旨在为政策和公共卫生干预提供信息的观察性研究,采用因果推断方法可以提高结果的有效性和可解释性。研究者建议,未来风险因素研究应更加注重因果目标的明确陈述,并采用适当的因果推断方法,以提高研究结果的科学价值和实际应用意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号