复合变量偏差对体重结果的因果影响:肥胖研究中的关键发现

【字体: 时间:2025年03月10日 来源:International Journal of Obesity 4.2

编辑推荐:

  研究人员分析 NCDS 队列数据,探究复合变量偏差对体重结果的影响,发现应避免使用复合变量,用 DAG 指导分析。

  在肥胖研究的领域中,就像是在错综复杂的迷宫里探索,研究人员常常会用到一些特殊的 “工具”—— 复合变量(如 BMI 和变化分数)。BMI 大家可能比较熟悉,它是用体重(千克)除以身高(米)的平方得到的数值,综合了身高和体重两个因素。而变化分数,比如体重变化(随访体重减去基线体重),从表面上看似乎很简单直接,但实际上它们也都是复合变量,是由两个或多个不同变量通过运算得出的。
这些复合变量的存在看似方便,却给研究带来了不少麻烦。就好比拼图时,把几块拼图强行拼成一块,想要再分开看清每一块的图案就变得困难重重。当把多个变量组合成一个复合变量时,就很难理清每个组成变量在其中真正的因果作用。这就导致了复合变量偏差,之前人们发现这种偏差在作为暴露变量分析时会产生误导性的因果推断,而现在研究发现,当复合变量作为结果变量时,同样会引发问题。以往很多研究都试图找出影响体重增加或减少的因素,但由于大多没有采用合适的因果推断方法,在处理复合变量时不够谨慎,导致研究结果难以让人信服。很多研究用 BMI 和体重变化等复合变量作为结果,却没意识到这样可能会得出错误的结论。这些不可靠的研究结果如果被健康从业者和政策制定者用来做决策,就可能会误导他们,进而影响公共健康政策的制定和实施。所以,为了走出这个 “迷宫”,找到真正可靠的研究结果,开展一项严谨的研究就显得尤为重要。

为了解开这些谜团,来自英国和伊朗等多个机构的研究人员展开了深入研究。他们的研究成果发表在《International Journal of Obesity》上。研究人员分析了英国国家儿童发展研究(NCDS)队列调查的数据,样本量为 9223 人。该队列记录了 1958 年在英国出生一周内儿童的生活情况,在他们 23 岁和 33 岁时收集了身高、体重等数据。研究人员利用直接无环图(Directed Acyclic Graph,DAG)进行分析,DAG 就像是一个 “路线图”,能直观地展示变量之间的因果关系,帮助研究人员确定哪些变量是混杂因素(会同时影响暴露因素和结果的因素),哪些是中介变量(在暴露因素和结果之间起传递作用的变量),以此来探究种族、性别、经济状况、不适评分以及 23 岁时的基线身高 / 体重等因素对 33 岁时体重相关结果的因果影响。

研究结果如下:

  1. 出生变量:非白人组的随访体重比白人组低,而随访 BMI 在两组间无显著差异。其余四个基于复合变量的结果(体重变化、BMI 变化、相对体重变化和相对 BMI 变化)在非白人组中高于白人组。男性随访时比女性重得多,但以随访 BMI 为结果时,性别差异的估计值被稀释。当分析变化分数或相对变化测量时,BMI 变化和相对 BMI 变化的估计值较小或接近零,相对体重变化的估计值与其他估计值相比符号相反。这表明复合变量(如随访 BMI、相对体重变化和相对 BMI 变化)会产生与可靠因果效应估计(以随访体重为结果)不同的结果,反映出 BMI 由于融合了体重和身高,且不同种族身高存在差异,导致其与随访体重的结果不同12
  2. 基线身高和体重:身高对随访体重的因果效应为正,且调整身高作为混杂因素很重要。基线体重与随访体重相关,对 BMI 的影响也显著,但对其他体重结果的影响估计值接近零。这说明分析体重变化与基线体重的关系时需谨慎,以往将其视为可行研究问题的做法可能有误34
  3. 经济状况和不适评分:当将经济状况和不适评分作为关键暴露因素,以随访体重为结果时,基线体重是混杂因素,需分析其对体重变化的影响。这两个变量为二元变量,信息不如连续变量丰富,导致效应稀释。分析发现,经济状况对随访体重和体重变化的影响略高于其他体重结果,不适评分的影响略低于其他体重结果。而且,正确测量身高作为混杂因素很重要,不调整基线身高和体重会导致各种体重结果出现较大差异甚至符号反转56

研究结论和讨论部分指出,不同的体重结果模型估计差异很大,即使是概念上相似的结果(如 BMI 变化和体重变化)也可能得出不同结论。为了理解体重变化的因果关系,应使用随访体重并调整基线体重(采用适当的因果推断方法),而不是使用随访 BMI、体重变化、BMI 变化等复合测量指标。BMI 在描述人群特征方面有一定作用,但在个体层面无法提供可靠的因果信息,它不能准确衡量身体成分,也不是可靠的因果研究指标。在处理复合变量时,如果基线体重在感兴趣的暴露因素之前,可通过在模型中直接纳入或使用倾向得分来调整基线体重;如果基线体重在暴露因素之后,则需要更复杂的分析策略,可借助 DAG 选择合适的方法。同时,研究还强调,不仅作为结果变量,当复合变量作为暴露变量时也存在问题,所有复合测量(除了潜在变量的代理测量)在分析因果效应时都可能产生误导性估计,研究人员应谨慎对待新的复合测量指标。

这项研究意义重大,它首次明确指出复合体重结果的因果估计存在差异且可能产生误导性推断,为肥胖研究领域敲响了警钟。研究建议未来的研究应避免使用复合变量作为结果或暴露变量,而使用非衍生变量,并借助 DAG 来识别和理解相关问题,这有助于研究人员更准确地进行因果推断,避免得出错误结论,为制定科学合理的健康政策提供可靠依据,推动肥胖研究领域朝着更严谨、更科学的方向发展。

研究人员主要采用了以下关键技术方法:

  1. 数据收集:利用英国国家儿童发展研究(NCDS)队列调查数据,获取研究对象 23 岁和 33 岁时的身高、体重、种族、性别、经济状况、不适评分等多方面信息。
  2. 构建直接无环图(DAG):根据变量之间的因果关系构建 DAG,确定混杂因素和中介变量,以此指导统计模型的建立和分析,避免因错误纳入变量而产生偏差。
  3. 线性回归分析:基于 DAG 构建多个线性回归模型,分析不同变量对体重相关结果的因果影响,探究各种因素与体重变化之间的关系 。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号