应用贝叶斯多变量孟德尔随机化从高维数据中优先识别候选因果性状：以估计母体代谢物对后代出生体重影响为例

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Genetic Epidemiology》：Applying Bayesian Multivariable Mendelian Randomisation to Prioritise Candidate Causal Traits From High-Dimensional Data: Illustration From Estimation of the Effect of Maternal Metabolites on Offspring Birthweight

【字体：大中小】 时间：2026年07月01日 来源：Genetic Epidemiology 3.4

编辑推荐：

　　孟德尔随机化（Mendelian randomisation，MR）是一种因果推断方法，利用遗传变异推断某一因果效应是否存在，且不受未观测混杂因素的偏倚影响。MR估计通常考察单一暴露对结局的影响；近年来，该方法已扩展为可利用多变量MR（multivariabl

孟德尔随机化（Mendelian randomisation，MR）是一种因果推断方法，利用遗传变异推断某一因果效应是否存在，且不受未观测混杂因素的偏倚影响。MR估计通常考察单一暴露对结局的影响；近年来，该方法已扩展为可利用多变量MR（multivariable MR，MVMR）探索多个暴露的潜在效应。现有MVMR模型通常局限于在单次估计中纳入少数几个暴露性状，尤其当这些性状高度相关时更是如此。然而，在许多具有研究价值的关联中，往往存在大量高度相关且可能对结局具有因果效应的暴露。MVMR贝叶斯模型平均（Bayesian model averaging，BMA）提供了一种面对大量相关暴露时、无需预设假设的暴露选择方法。尽管该方法潜在效能很强，BMA类估计方法在流行病学研究中的应用仍不常见。本文详细介绍了将MVMR-BMA应用于筛选对后代出生体重具有因果作用的母体代谢物的方法。研究人员对模型的输入与输出进行了细致说明，并讨论了适当的敏感性分析，同时结合本研究实例进行展示。通过这一工作，期望为其他研究者提供一份操作指南，帮助那些可能不熟悉贝叶斯分析术语、但希望将该方法应用于自身数据的研究人员理解并实施该方法。

该文发表于《Genetic Epidemiology》，核心目标是阐明如何将贝叶斯模型平均框架下的多变量孟德尔随机化（MVMR-BMA）应用于高维、强相关暴露数据的因果暴露筛选，并以母体代谢物对后代出生体重的影响为实例进行方法学演示和实证说明。研究背景在于，传统观察性流行病学研究易受混杂因素干扰，暴露与结局之间的相关性未必代表因果性；而标准孟德尔随机化（MR）虽然能够利用遗传变异作为工具变量（instrumental variables，IV）降低未观测混杂偏倚，但通常仅针对单一暴露进行估计。随着研究问题复杂化，研究者越来越关注多个彼此相关的暴露共同作用于同一结局的情形，因此多变量孟德尔随机化（MVMR）应运而生。尽管如此，现有MVMR在面对数量众多且高度相关的候选暴露时，往往难以稳定区分真正的因果暴露与统计噪声，尤其容易受到条件弱工具变量问题影响，限制了其在高维代谢组学等数据结构中的应用。母体代谢物与出生体重之间的关系正是此类典型问题：候选代谢物种类繁多，彼此相关性强，且均可能参与胎儿生长相关生物学过程，因此需要一种尽量减少研究者主观筛选偏倚、能够在高维相关暴露中进行优先排序的方法。

基于这一问题，研究人员系统介绍了MVMR-BMA的理论基础、实施流程、结果解释以及稳健性评估思路。MVMR-BMA的关键思想在于，不预先指定唯一“正确模型”，而是在所有可能的暴露组合中进行搜索，对每个模型赋予后验概率（posterior probability，PP），并综合模型不确定性。对于单个暴露，则通过边际纳入概率（marginal inclusion probability，MIP）汇总其在所有包含该暴露模型中的证据强度，从而衡量其成为因果暴露的可能性。研究不仅解释了这些贝叶斯统计量的含义，还强调MVMR-BMA更适合用于暴露筛选与优先排序，而非直接提供无偏因果效应估计，因为模型特异性效应与模型平均效应都存在向零效应收缩的保守偏倚。

方法上，研究人员从249项NMR（nuclear magnetic resonance，核磁共振）代谢指标出发，先按生物学可分辨性与统计可区分性缩减为48项，再依据工具变量-暴露关联系数计算遗传相关性，剔除相关性高于0.985、统计上无法区分的2项指标，最终保留46项代谢物。工具变量选自UK Biobank代谢物GWAS，在全组代谢物中满足p＜5 × 10^?8的变异，并经连锁不平衡修剪（R²＜0.001）后纳入。结局数据来自包含210,267名欧洲血统参与者的GWAS荟萃分析，整合EGG联盟与UK Biobank共41项研究，并对胎儿基因型进行了校正。主分析中，研究人员设定每个暴露的先验概率为0.1，先验方差为0.5，算法运行100,000次迭代；此外还进行了先验设定、迭代次数、异常值与影响点剔除、以及暴露纳入方案替代等多种敏感性分析。

就技术路线而言，本文主要采用以下关键方法：第一，基于GWAS汇总统计数据实施两样本多变量孟德尔随机化，并引入贝叶斯模型平均（BMA）进行高维相关暴露筛选；第二，利用shotgun stochastic search在大规模模型空间中近似搜索后验概率；第三，以后验概率（PP）、边际纳入概率（MIP）和模型平均直接因果效应作为主要输出；第四，通过经验p值、先验敏感性分析、收敛与混合检查、Q统计量及Cook's distance评估模型稳健性。暴露数据来源于UK Biobank代谢物GWAS，结局数据来源于EGG联盟与UK Biobank的出生体重GWAS荟萃分析。

在研究结果部分，作者首先报告了“Main Results”。主分析中，后验概率最高的模型包含glutamine和glucose，PP为0.377；第二位模型仅包含glucose，PP为0.311。其后模型的PP明显下降，说明算法主要在“glutamine + glucose”与“仅glucose”这两种模型之间分配证据。按暴露排序，glucose的MIP为1.000，表明其被所有高可能性模型纳入，是最稳定的优先暴露；glutamine的MIP为0.551，位列第二；alanine的MIP为0.117，支持度明显较弱。经验p值分析进一步支持glucose和glutamine与出生体重之间可能存在因果关联，其中glucose证据最强。研究人员同时指出，MVMR-BMA输出的模型特异性效应和模型平均效应均偏向零值，且缺乏不确定性区间，因此这些效应值不应被视为无偏的因果效应量，更应聚焦于“哪些暴露被优先选中”。

在“Bayesian Sensitivity Analysis”中，作者保留了两个小标题。其一，“Priors”显示先验设定会影响最优模型的排序：较小先验概率更倾向选择仅含少数暴露的模型，因此更偏向“仅glucose”模型；较大先验概率则更支持同时纳入glutamine和glucose。增大先验方差后，因glucose对应较大效应值，算法对“仅glucose”模型的偏好增强。但不论如何设定，glucose单独模型以及glutamine与glucose联合模型始终处于最优序列，提示结论具有一定稳健性。其二，“Convergence and Mixing”中，研究人员将迭代次数由100,000增加至500,000后得到完全一致结果，说明主分析的运行长度足以保证收敛和混合。

在“Data Sensitivity Analyses”中，同样包括两个小标题。于“Outliers and Influential Variants”部分，研究人员使用Q统计量识别离群SNP，并用Cook's distance识别高影响SNP。在最优模型中，共识别并剔除了3个离群SNP：rs1801133、rs2168101和rs7137828，无高影响SNP被剔除。剔除后，后验概率最高模型变为“仅glucose”，而“glucose + lactate”升至第二位；相应地，lactate的MIP上升，glutamine的MIP下降。作者谨慎指出，剔除离群SNP并不必然意味着去除了水平多效性（horizontal pleiotropy），也可能改变了某些代谢物的遗传预测能力，因此该变化提示除glucose外，其余优先暴露的排序对数据特征较敏感。不过，glucose在不同分析中的稳定优先地位，增强了其作为出生体重重要决定因素的遗传学证据。于“Exposure Inclusion”部分，作者将主分析中因高遗传相关性而被排除的两项脂质指标，改为保留其相关对应指标重新分析，结果与主分析相似，说明研究结论不依赖于该具体暴露保留方案。

在讨论部分，作者进一步解释了结果背后的方法学含义。首先，在“Instrument Strength in MVMR-BMA”中，研究人员强调工具变量强度是MVMR-BMA成败的关键限制。虽然主分析中共纳入598个SNP，但与glucose达到全基因组显著关联的仅17个，与lactate显著关联的仅7个。当仅考虑与所选暴露相关的SNP时，条件F统计量（conditional F-statistic）范围为8.3至83.6；但当纳入MVMR-BMA实际使用的全部SNP后，范围下降至2.6至12.5。glucose在不同模型中的条件F统计量约为4.6–4.9，lactate约为2.7，提示这些暴露的效应估计很可能受弱工具变量偏倚影响。作者据此指出，MVMR-BMA在高维设置中虽然有助于暴露筛选，但若工具变量对候选暴露的预测能力不足，模型区分真实信号与噪声的能力仍将受限。

其次，在“What to Look for to Check the Model Is Working”中，作者提出解释MVMR-BMA输出时应重点关注后验概率分布，而不仅是“排名”。若最优模型PP较低，或前几个模型PP差异很小，可能意味着算法未能有效区分模型，或者数据并不适合此类估计。本文应用中，前两名模型PP分别为0.377和0.311，而第三名仅为0.051，表明模型之间存在较清晰区分，支持分析可辨识度尚可。作者还指出，若模型难以区分，研究者可考虑进一步缩小暴露集合，如按代谢物亚类分别分析，但这会削弱“无假设”筛选的特征。此外，作者讨论了未来方法改进方向，包括对暴露设置差异化先验、开发弱工具变量稳健方法，或仅在每个模型中使用与纳入暴露相关的SNP，但这些策略尚未在现有算法中实现。

最后，论文结论部分可译为：总之，MVMR-BMA是一种有力的方法，当存在多个相关暴露时，可用于辅助确定更合理的模型设定。与MVMR-IVW相比，它能够在无预设假设的框架下处理更大规模的暴露集合，从而避免研究者仅纳入那些事先被认为可能具有因果作用的暴露所带来的局限。然而，与任何估计方法一样，实施MVMR-BMA时仍需注意若干关键限制，尤其是数据本身必须足以识别不同暴露的效应。因此，研究人员在解释MVMR-BMA结果时，应对分析结果进行充分审查，包括开展敏感性分析，并考察遗传变异对暴露的预测强度。总体而言，该研究的重要意义不仅在于再次支持母体glucose是影响后代出生体重的关键因果代谢物，更在于为流行病学研究者提供了一套较为系统、可操作的MVMR-BMA应用框架，明确了在高维相关暴露数据中开展因果优先排序时应关注的前提条件、稳健性检查和解释边界。

联系信箱：

粤ICP备09063491号

热点排行