编辑推荐:
为探究 NLMR 中残余法和双重排序法在遗传效应异质性等场景下的表现,研究人员通过模拟和 UK Biobank 数据开展研究。发现两种方法均易产生不可预测偏倚,提示需谨慎使用,模拟分析或可用于检测偏倚。
在流行病学研究中,孟德尔随机化(Mendelian Randomization, MR)作为一种利用遗传变异推断因果关系的方法,已被广泛应用于探索暴露因素与疾病结局之间的因果关联。随着研究的深入,传统线性 MR 已无法满足对复杂非线性因果关系的分析需求,非线性孟德尔随机化(Non-linear Mendelian Randomization, NLMR)应运而生。目前,残余法(residual method)和双重排序法(doubly-ranked method)是 NLMR 中常用的两种技术,前者通过将暴露变量对基因型进行回归,利用残差生成 strata 并在各层内进行 MR 分析,以构建剂量 - 反应曲线,但该方法依赖 “恒定遗传效应” 假设,即基因型对暴露的影响在个体间保持一致;后者则通过多步骤排序生成 strata,仅需满足 “秩保留假设”,即个体的暴露排名不随工具变量值的变化而改变,被认为对遗传效应异质性(genetic effect heterogeneity,即基因型对暴露的影响存在个体差异)更具鲁棒性。
然而,现有研究对遗传效应异质性是否会导致双重排序法的秩保留假设失效,以及这两种方法在实际应用中的可靠性存疑。例如,残余法在部分研究中得出了与数据分布矛盾的结果,甚至有相关论文因结论 “逻辑上不可能” 而被撤稿。因此,深入评估这两种方法在遗传效应异质性和混杂因素存在时的表现,对于确保 NLMR 结果的有效性至关重要。
为解决上述问题,英国布里斯托大学(MRC Integrative Epidemiology Unit, University of Bristol)等机构的研究人员开展了相关研究。他们通过模拟实验和基于 UK Biobank 的实证分析,系统评估了遗传效应异质性对残余法和双重排序法估计结果的影响,旨在明确这两种方法是否会因遗传效应异质性产生偏倚,以及此类偏倚在真实数据中的普遍性。研究结果表明,在遗传效应异质性和未测量混杂因素存在的情况下,残余法和双重排序法均可能产生不可预测的偏倚,提示需谨慎使用这两种方法,并建议在未来研究中通过模拟结果分析检测遗传效应异质性导致的偏倚。该研究成果发表在《European Journal of Epidemiology》。
研究人员主要采用了以下关键技术方法:
- 模拟研究:使用 R 语言及 faux 包生成包含工具变量(G)、暴露变量(X)、结局变量(Y)和混杂因素(U、V)的模拟数据,设置不同的遗传效应异质性参数(如 G 与 U 的交互作用项 bgux)和混杂效应参数(如 bux、buy),构建多种模拟场景。通过双重排序法和残余法对模拟数据进行分层,利用 Wald 比率在各层内进行 MR 估计,并计算均方误差(MSE)、Cochran's Q 检验等指标评估偏倚和异质性。
- UK Biobank 实证分析:基于 UK Biobank 中约 385,290 名欧洲血统参与者的数据,选取体重指数(BMI)、血清 25 - 羟基维生素 D(Vitamin D)、高密度脂蛋白胆固醇(HDL)、低密度脂蛋白胆固醇(LDL)、甘油三酯(TG)和脂蛋白 (a)(Lp (a))共 6 种暴露因素。通过构建多基因风险评分(PRS)作为工具变量,检测遗传变异与暴露变量之间的交互作用(如与疾病评分、Townsend 剥夺指数的交互),并通过模拟结局数据评估偏倚。
研究结果
模拟研究:遗传效应异质性和混杂导致 strata 特异性偏倚
在存在 G-U 交互作用(即遗传效应异质性)和未测量混杂因素 U 的模拟场景中(如 Simulation A:X=0.3G + buxU + bguxGU + ex,Y=buyU + ey),残余法和双重排序法均表现出显著的 strata 特异性偏倚。例如,当 bgux=-0.1(强交互作用)且 bux=buy=0.3(强混杂)时,两种方法在低 strata 中均得出正的 MR 估计值,在高 strata 中得出负的 MR 估计值,而全样本 MR 估计值仍无偏。偏倚的大小与交互作用和混杂效应的强度相关,当混杂效应减弱(如 buy=0.05)或交互作用消失(bgux=0)时,偏倚显著减小或消失。
进一步模拟包含独立混杂因素 V 的场景(Simulation B)时,即使 U 不直接混杂暴露与结局,仅通过 G-U 交互作用导致遗传效应异质性,同时存在 V 对暴露和结局的混杂,两种方法仍会产生偏倚。这表明,只要存在遗传效应异质性和任意未测量的暴露 - 结局混杂因素,即可导致偏倚,且偏倚方向和大小与交互作用、混杂效应的方向和强度相关。
秩保留假设的验证:交互作用导致假设违反
通过模拟不同模型(如线性模型、交互作用模型、非线性模型),评估遗传效应异质性对双重排序法所依赖的秩保留假设的影响。结果显示,当存在 G-U 交互作用时,个体的暴露排名随 G 值的变化而改变,即秩保留假设被违反,且违反程度与交互作用效应大小和交互作用解释的方差比例相关。例如,在强交互作用模型(如 Model 4:X=0.3G + U + 0.2GU + ε)中,平均标准化秩差显著增大,而在非线性模型(如 Model 9:X=0.3G + 0.1G2 + U + ε)中,秩保留假设未被违反,表明非线性的基因型 - 暴露关系不一定导致秩保留假设失效。
实证分析:真实数据中遗传效应异质性普遍存在
在 UK Biobank 数据中,以疾病评分(如 C 反应蛋白、肾功能指标等)和 Townsend 剥夺指数作为潜在交互变量,检测其与各暴露因素的 PRS 之间的交互作用。结果显示,除 Lp (a) 外,其余暴露因素均存在显著的交互作用,且交互效应大小与模拟场景中导致偏倚的效应大小相当(如 IVVitD与疾病评分的交互效应估计值为 - 0.16)。进一步通过模拟结局数据(X = 真实暴露 + buxU,Y=buyU + ey)分析发现,残余法和双重排序法均产生显著的 strata 特异性偏倚,而全样本 MR 估计值仍无偏,表明真实数据中的遗传效应异质性确实会导致 NLMR 偏倚。
结论与讨论
本研究通过模拟和实证分析揭示,残余法和双重排序法在遗传效应异质性和未测量混杂因素存在时均可能产生不可预测的偏倚。残余法因依赖 “恒定遗传效应” 假设,在遗传效应异质性下必然失效;双重排序法虽不依赖该假设,但其 “秩保留假设” 在存在基因 - 环境交互作用时易被违反,从而导致偏倚。UK Biobank 数据中普遍存在的遗传效应异质性(如疾病状态、社会经济因素与遗传变异的交互)表明,这些偏倚可能广泛存在于现有 NLMR 研究中。
研究结果对 NLMR 的应用具有重要启示:首先,研究者应高度警惕这两种方法的局限性,避免盲目接受其结果;其次,建议在 NLMR 分析中常规进行模拟结果分析,通过生成无因果效应的模拟结局数据,检测是否存在因遗传效应异质性导致的偏倚(即 falsification test);此外,可探索其他 NLMR 方法,如利用等位基因系列(allelic series)或基于亚组(如性别、地理区域)的分析,以更可靠地推断非线性因果关系。
总之,本研究为 NLMR 方法的合理应用提供了关键警示,强调在缺乏有效手段检测遗传效应异质性和秩保留假设是否成立的情况下,对残余法和双重排序法的使用需极其谨慎。未来需进一步开发鲁棒性更强的 NLMR 方法,并加强对遗传效应异质性及其对因果推断影响的研究。