《Genetic Epidemiology》:Methods for Prioritizing Causal Genes in Molecular Studies of Human Disease: The State of the Art
编辑推荐:
这篇综述系统梳理了当前识别复杂性状与疾病背后因果基因(或效应基因)的核心方法。文章重点对比了共定位分析、孟德尔随机化(MR)和网络因果推断三大类主流统计工具的优势、局限性与互补性,并深入探讨了它们如何克服遗传混杂、连锁不平衡和水平多效性等挑战,以提升在基因组关联研究(GWAS)后分析中推断基因因果关系的准确性与稳健性,并以心脏病研究为例阐明了其实际应用。
引言:从GWAS信号到因果基因的挑战
在过去的十年中,全基因组关联研究(GWAS)已识别出成千上万与复杂性状和疾病相关的常见遗传变异。然而,这些关联信号大多位于非编码区,其功能影响尚不明确,且每个疾病相关位点内常包含多个可能的候选基因,使得从GWAS结果中直接推断因果基因困难重重。在“后GWAS”分析中,术语“因果基因”指的是在关联位点上,其功能通过序列变异直接影响性状发生机制的基因。尽管“效应基因”可能是更合适的术语,但本文为了一致性,仍沿用“因果基因”的说法。
为应对因果推断的复杂性,一系列整合GWAS与基因表达、蛋白质组学等多组学数据的统计方法应运而生。这些基于数量性状位点(QTL)的因果推断方法可大致分为三类:共定位分析、工具变量(IV)方法(以孟德尔随机化(MR)为代表)和基于网络的因果框架。所有因果推断方法都在不同程度上易受遗传混杂、多效性和连锁不平衡(LD)导致的虚假关联影响。
共定位分析:评估共享遗传基础
共定位分析旨在评估两个性状(如疾病表型与基因表达)的遗传关联信号是否源于同一个因果变异。它通过比较一个基因座内存在两个独立的因果变异与仅有一个共享因果变异的不同假设,来确定性状间是否共享遗传基础。其核心作用是作为更大因果推断流程的初步步骤,以验证后续MR分析中工具变量的有效性。共定位方法主要分为比例法和枚举法两大类。近年来,该方法不断发展,例如Sum of Single Effects (SuSiE)和eCAVIAR等方法,已能够处理一个位点存在多个因果变异的情况(等位基因异质性),提高了分析的精度。然而,其准确性仍受先验设定、连锁不平衡结构以及数据完整性的影响。
在实践中,共定位分析的良好应用需要结合疾病相关组织、进行条件分析以识别独立关联信号,并辅以功能注释。例如,在颈动脉内膜中层厚度(CIMT)的研究中,使用动脉组织的表达数量性状位点(eQTL)数据进行共定位,增强了结果的生物学可解释性。反之,若数据统计功效不足、LD结构复杂或汇总统计不完全,则可能导致假阴性或难以解析的共定位信号。
孟德尔随机化:利用遗传变异推断因果关系
孟德尔随机化利用遗传变异作为工具变量,来推断暴露(如基因表达水平)与结局(如疾病风险)之间的因果关系。其核心在于遵循孟德尔随机分配定律,模拟随机对照试验的条件,从而克服观察性研究中的混杂和反向因果关系。MR的有效性建立在三个核心假设之上:工具变量与暴露强相关(相关性假设)、工具变量与混杂因素独立(独立性假设),以及工具变量仅通过暴露影响结局(排他性假设)。
标准MR方法包括针对单个工具变量的Wald比率检验,以及整合多个工具变量的逆方差加权法(IVW)。为了处理水平多效性(即工具变量通过不依赖于暴露的途径影响结局),又发展出了加权中位数法、MR-Egger回归等敏感性分析方法。摘要数据孟德尔随机化(SMR)则通过整合独立的GWAS和eQTL汇总数据,来筛选与性状相关的基因表达。
MR与转录组范围关联研究(TWAS)概念相似但本质不同。TWAS检验的是性状与基因预测的表达组分之间的关联,其结果不能直接解释为因果证据。MR为TWAS的发现提供了更具因果解释力的分析框架。
近年来,MR方法持续革新以应对复杂挑战。例如,MR-link方法通过联合分析LD中的遗传标记来校正未观测到的多效性,而无需剔除多效性工具变量。EMIC框架利用特征值分解来识别由LD引起的假阳性。针对相关水平多效性,MR-Corr2、CAUSE和MR-CUE等贝叶斯方法被开发出来,它们能够同时处理相关与非相关的多效性效应。最新的MR-Horse方法不依赖于工具变量强度独立于直接效应(InSIDE)的假设,在多种情况下均保持了较低的第一类错误率。
一项成功的蛋白质组范围MR研究,通过整合大规模蛋白质组和心血管疾病GWAS数据,并采用多祖先样本和双向MR设计,系统地发现了数百个与心血管疾病有潜在因果关系的蛋白质,其中包含已获批准的药物靶点(如PCSK9)和新候选基因(如BTN3A2),展示了MR在药物发现中的巨大潜力。而一项有局限性的研究,由于仅使用单个顺式pQTL作为工具变量且未充分检验多效性,其发现的MI潜在药物靶点(如LPA)的因果证据强度则受到限制。
基于网络的因果推断:探索复杂系统的相互关系
与假设驱动的MR不同,基于网络的方法采用发现式的研究框架,旨在从高维多组学数据中推断复杂的因果和中介关系,重建关键调控枢纽和因果通路。其核心是利用有向无环图来建模变量间的条件依赖关系,图中的节点代表变量(包括遗传变异),边则代表方向性关系。
孟德尔随机化的原理可以嵌入到因果网络的构建中。MR识别出的关联可以作为网络中的“遗传锚点”,帮助确定节点之间边的方向,从而提高网络结构的准确性和生物学合理性。其中,贝叶斯网络(BN)是常用的概率图模型,它通过量化每个节点在其父节点条件下的概率分布,将边解释为暴露与结局之间的因果关联。在存在广泛多效性的情况下,结合遗传锚点的贝叶斯网络在控制第一类错误和统计功效方面可能优于双向MR。
基于网络的方法能够与共定位、MR和TWAS的结果形成互补与整合。它能将共定位信号置于更广泛的病因学背景下,揭示共享遗传变异如何通过调控网络影响生物学系统。它也能将MR从检验单一因果链扩展到探索包含多重暴露、中介和结果的复杂因果路径与级联反应。对于TWAS识别出的基因,网络分析能通过评估其在更广泛生物网络中的位置和连接性,来优化其优先级排序,并有助于最大限度地减少由多效性和LD引起的遗传混杂。
网络方法的稳定性至关重要,可通过自助法、敏感性分析和模拟研究进行评估。近年来,诸如DELDBN、CICT等算法的发展,提高了从基因表达数据(包括单细胞RNA测序数据)中推断基因调控网络的准确性和可扩展性。这些方法为在系统水平上理解复杂疾病的遗传机制提供了强大工具。
方法间的相互作用与整合
共定位、孟德尔随机化和基于网络的因果推断并非相互孤立,而是构成一个互补的分析生态系统。共定位常作为初步筛选,验证MR中工具变量的共享遗传基础。MR则可为共定位信号提供因果方向上的解读,并可作为锚点增强因果网络的方向推断。网络分析又能为MR和TWAS的发现提供系统背景,整合多组学层级的证据。在存在广泛多效性等复杂场景下,结合遗传锚点的贝叶斯网络等方法展现出独特优势。将不同方法进行战略性组合,能够从不同角度验证发现,从而显著提升基因优先级排序结果的准确性和稳健性,为我们理解人类复杂疾病的遗传病因提供更全面、更可靠的视角。