与使用探索性多元回归识别因果风险因素相关的问题
《BMJ Medicine》:Factors associated with: problems of using exploratory multivariable regression to identify causal risk factors
【字体:
大
中
小
】
时间:2025年12月08日
来源:BMJ Medicine 10
编辑推荐:
Lewer等指出“因素与结果”研究设计存在重大方法论缺陷,包括无预设主暴露变量、多重统计检验(如P值操纵)、事后假设解释(如HARKing),以及不合理调整变量(如混淆中介或共变者),导致结果不可靠甚至荒谬(如吸烟降低新冠死亡率)。建议停止此类研究并规范期刊发表标准。
近年来,医学和流行病学领域频繁出现一类以“识别健康影响因素”为名的统计分析方法。这类研究通常通过构建包含数十甚至上百个候选变量的多元回归模型,筛选出具有统计学显著性的变量,并直接将其定义为“风险因素”。然而,这种看似高效的研究范式实则存在系统性缺陷,可能误导临床决策和公共卫生政策。本文将从方法论、逻辑缺陷和实践后果三个层面,深入剖析这类研究的固有弊端。
一、方法论缺陷的深层解析
1. 调整变量的逻辑混乱
研究者在处理多个候选变量时,常将所有变量同时纳入回归模型进行调整。这种操作本质上是将多个暴露变量视为相互独立的协变量,忽略了变量间的复杂因果关系网络。例如,年龄与吸烟习惯存在双向关联,若未明确因果路径(如年龄导致吸烟或相反),直接同时调整可能扭曲真实效应。
2. 多重检验引发的假阳性危机
以2024年PubMed新增的4,000余项研究为例,平均每个研究包含15-20个候选变量。按照显著水平α=0.05,单个研究出现假阳性的概率为5%,当变量组合超过20个时,至少出现一个假阳性的概率将超过50%。更严重的是,研究者常采用逐步回归算法(stepwise regression)进行变量筛选,这会进一步放大随机误差的影响,使假阳性概率激增。
3. 事后解释的因果倒置
典型的研究流程为:首先收集大量数据,然后通过统计筛选发现显著关联,最后基于结果构建解释性理论。这种"数据驱动"的研究范式实质是因果倒置——用统计显著的结果倒逼因果机制,导致结论缺乏理论支撑。例如某研究显示糖尿病降低静脉血栓风险,其解释可能源于数据中的混杂因素(如患者平均年龄较低),而非真实生物学机制。
二、实践中的典型误区
1. 调整介导变量的错误
某医院创伤患者研究发现,痴呆症与死亡率负相关。表面看这似乎合理,但实际可能存在联集偏倚(collider bias):痴呆症患者因认知障碍更可能主动就医,而创伤患者中非痴呆者更可能因症状隐蔽而延误治疗。若未正确识别变量间的因果结构(如痴呆是创伤的继发结果而非风险因素),直接调整将导致错误结论。
2. 研究设计的自我指涉困境
以新冠感染影响因素研究为例,吸烟者因慢性呼吸道疾病更易感染,但直接调整吸烟后,慢性病状态可能被误判为独立风险因素。这种调整顺序的随意性,使得模型输出的回归系数失去实际意义——每个系数都取决于其他变量的选择,形成循环论证。
3. 预测与因果的混淆
某军事研究显示,接受关系咨询的士兵自杀率更高。研究者归因于"未处理的混杂因素",但实际可能混淆了预测与因果:咨询本身可能是自杀风险增加的表征而非原因。若将多变量调整后的效应直接解释为干预靶点,将导致资源错配。
三、学术生态的恶性循环
1. 研究产出的泡沫化
统计软件的普及使得研究者能轻松处理海量数据,但缺乏理论指导的"数据挖掘"催生出大量低质量论文。以某顶级期刊为例,其2023年发表的127篇相关研究中有43%存在明显的变量选择偏误。
2. 政策制定的误导风险
某研究称吸烟降低新冠死亡率后,英国公共卫生部错误地将控烟政策调整为"适度吸烟"建议。类似案例包括:
- 糖尿病与静脉血栓研究导致抗凝血治疗指南混乱
- 食物短缺与PTSD关联误导灾后干预策略
这些后果直接源于统计方法与因果推理的脱节。
3. 学术资源的浪费性消耗
国际医学期刊协会数据显示,每年约30万篇"因素相关研究"占据学术资源,但其中真正转化为后续验证的不足0.3%。大量资金和人力消耗在缺乏科学价值的研究上,形成显著的"科研无效性"。
四、改进路径与行业规范
1. 因果建模的范式转型
建议采用以下技术框架:
- 建立因果图模型(DAG)明确变量间关系
- 区分调整变量(confounders)、中介变量(mediators)和联集变量(colliders)
- 实施因果发现算法(如PC算法)辅助模型构建
2. 统计实践的改良建议
- 变量筛选前需进行理论预判
- 使用多重检验校正方法(如Bonferroni-Holm)
- 保留所有候选变量的回归结果
- 明确区分预测模型与因果模型
3. 学术评价体系的重构
建议期刊实行:
- 原始数据开放审查
- 因果模型验证流程
- 统计方法透明度评估
- 重复实验验证机制
五、典型案例的深度剖析
1. 新冠检测研究中的联集偏倚
某研究显示吸烟者新冠检测阳性率更低,表面似乎支持吸烟具有保护作用。但实际存在联集偏倚:因吸烟导致慢性咳嗽者更可能主动寻求检测,而检测阴性者中吸烟比例较高,形成虚假负相关。正确的研究设计应控制检测动机等混杂因素,而非简单调整吸烟变量。
2. 食物短缺与PTSD的混淆机制
危地马拉难民研究中,食物短缺(暴露)与PTSD(结局)的负相关可能源于联集效应:战争导致食物短缺(exposure)和PTSD(outcome)同时发生,调整食物短缺后,实际反映的是战争幸存者与受害者之间的差异,而非因果关系。
3. 医院创伤患者的研究谬误
痴呆症与创伤死亡率的负相关,实为选择偏倚的结果:痴呆患者因症状更明显被优先送医,而未痴呆但症状轻微的创伤患者可能未及时就诊。正确的分析应基于同质化样本,而非简单调整现有变量。
六、行业转型的可行性路径
1. 建立因果研究认证体系
推行"因果研究白名单",要求:
- 明确因果假设
- DAG图预注册
- 调整变量清单公示
- 预测模型与因果模型分离验证
2. 学术出版规范革新
期刊应强制要求:
- 披露所有候选变量的检验结果
- 区分因果效应与预测相关性
- 提供模型稳健性检验
- 明确标注方法局限
3. 政策应用的审慎机制
建立"三重验证"制度:
- 理论机制验证(专家共识)
- 模拟实验验证(蒙特卡洛模拟)
- 实验性研究验证(随机对照补充)
结语
"因素相关研究"本质上是用统计显著性替代因果推理,这种范式已形成危害性显著的学术惯性。其消亡需要方法论层面的范式革命,建立以因果推断为核心的研究体系。当学术界能自觉放弃"大模型筛选"的捷径,转而深耕机制研究时,医学研究才能真正突破描述性统计的局限,走向因果解释的新纪元。这不仅是研究方法的优化,更是对"科学精神"本质的回归——从数据中寻找真理,而非用数据塑造真理。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号