面向生物样本库规模的全基因组分位数回归计算方法及其在遗传关联异质性研究中的应用

《Proceedings of the National Academy of Sciences》:Computationally efficient whole-genome quantile regression at biobank scale

【字体: 时间:2025年12月15日 来源:Proceedings of the National Academy of Sciences 9.4

编辑推荐:

  本文推荐一种名为Regenie.QRS的高效全基因组分位数回归(Quantile Regression, QR)方法,用于处理生物样本库规模(Biobank-scale)的基因组关联研究(Genome-Wide Association Studies, GWAS)数据。该方法通过两步法(先估计多基因效应作为偏移量,再进行非混合分位数回归)有效控制I型错误,并在存在效应异质性(如基因型-表型关联在不同表型分位数上分布不均)时展现出比线性回归(Linear Regression, LR)更高的统计功效。文章通过模拟与真实数据(如UK Biobank和SardiNIA/ProgeNIA)验证了其在识别异质性遗传效应(例如G6PC2位点对血糖水平的差异影响)方面的优势,为复杂性状的遗传机制提供了更精细的洞察。

  
引言背景
基因型-表型关联通常具有情境依赖性和动态性,导致遗传效应在表型分布的不同部分存在异质性。传统的全基因组关联研究(GWAS)主要基于线性回归(Linear Regression, LR)模型,这些模型假设遗传效应在整个表型分布中是同质的,因此无法捕捉或表征这种异质性。分位数回归(Quantile Regression, QR)作为一种替代方法,特别适合于检测和表征异质的基因型-表型关联。然而,由于遗传学家对QR相对不熟悉,以及缺乏能够处理生物样本库规模数据(如高维度和复杂遗传结构)的可扩展QR技术,其在遗传学中的应用一直受到限制。
研究方法
模型框架:线性混合模型与分位数回归
文章提出了一个计算效率高的全基因组分位数回归技术,称为Regenie.QRS。该方法的核心思想是首先估计多基因效应(polygenic effect),然后将该效应作为偏移量(offset)纳入非混合分位数回归模型中。具体模型设置如下:
首先,考虑标准的线性混合模型(Linear Mixed Model, LMM),其中表型向量Y受到协变量Z、待测试SNP Gj的效应βj、多基因效应向量g以及残差项ε的影响。多基因效应g的协方差结构由遗传关系矩阵(Genetic Relationship Matrix, GRM)K和遗传方差σg2决定。
为了允许遗传效应和其他协变量的效应依赖于感兴趣的分位数τ,文章考虑了表型Yi的条件分位数函数模型。该模型允许效应大小α(τ)和βj(τ)随分位数τ变化。
为了提高高维遗传研究的计算效率,Regenie.QRS采用了两步法。第一步,使用受机器学习堆叠回归(stacked regression)启发的Regenie方法估计多基因效应向量?。为了避免连锁不平衡(Linkage Disequilibrium, LD)污染,采用了留一染色体出(Leave-One-Chromosome-Out, LOCO)策略。第二步,将估计的多基因效应?作为固定偏移量,拟合标准线性分位数回归模型,即对残差R = Y - ?进行分位数回归。
假设检验基于分位数秩得分(Quantile Rank Score, QRS)检验。对于每个SNP,在等间距的分位数水平上进行QRS检验,并通过Cauchy组合方法合并分位数特异性P值。
使用Regenie进行多基因预测
Regenie方法假设了一个全基因组回归模型,其中所有SNP的效应大小服从多元正态分布。该方法首先将基因组划分为B个连续区块。对于每个基因型区块,使用岭回归(ridge regression)拟合模型,产生一组预测因子。然后,将这些预测因子组合起来,再次应用岭回归,并通过K折交叉验证选择最优的收缩参数。最终,使用LOCO方案为每条染色体产生多基因预测值。
结果分析
模拟研究
模拟研究使用英国生物样本库(UK Biobank, UKBB)的基因型数据,评估了Regenie.QRS在控制I型错误和统计功效方面的表现。模拟设置了多种情景,包括同质效应模型(如高斯线性模型)、偏离高斯线性模型的模型(如t(2)误差分布、显性效应模型)以及异质效应模型。
结果显示,在I型错误控制方面,Regenie.QRS在所有遗传模型和显著性水平上都表现稳健,其经验I型错误率接近或低于名义水平。相比之下,边际QRS检验和基于最佳线性无偏预测(Best Linear Unbiased Prediction, BLUP)的QRS检验(BLUP.QRS)在不同程度上出现了I型错误膨胀,而标准的线性回归方法Regenie在某些情况下也表现出错误率升高。
在统计功效方面,在同质效应模型下,Regenie.QRS与Regenie的功效相似,但高于边际QRS和BLUP.QRS。在存在效应异质性的模型中(如显性效应模型和异质效应模型),Regenie.QRS表现出明显优势。例如,在显性效应模型中,Regenie.QRS比Regenie的统计功效高出21%至46%;在异质效应模型中,Regenie.QRS在更严格的显著性水平下也保持了更高的功效。
在英国生物样本库和ProgeNIA/SardiNIA项目中的应用
将Regenie.QRS应用于UKBB和ProgeNIA/SardiNIA项目中的28个定量性状。与Regenie相比,Regenie.QRS发现了许多共享的基因座,同时也识别出了一些Regenie未能发现的独特基因座。总体而言,Regenie倾向于发现更多的基因座,这可能反映了其更高的统计功效,但也可能存在一定的假阳性。Regenie.QRS通过利用所有相关样本(而不仅仅是无关个体),相比之前仅基于无关个体的QRS分析,发现了更多的基因座,展示了纳入所有个体的优势。
异质性效应实例
分位数回归的一个主要优势是能够详细描述遗传效应在表型分布不同部分的变化。文章列举了几个具有异质效应的基因座例子:
  • G6PC2与血糖水平:位于G6PC2基因座的先导SNP rs13431652与空腹血糖升高显著相关。分位数回归分析显示,其效应大小在血糖分布的低分位数(如τ=0.1时β≈0.10)更强,而在高分位数(如τ=0.9时β≈0.02-0.03)较弱。这种异质性模式表明,该变异对低血糖水平个体的生理影响更显著,可能起到防止低血糖的作用,而不驱动危险的高血糖,这解释了该变异与2型糖尿病风险缺乏关联的先前报道。这一趋势在Sardinia队列中得到了重复。
  • SORT1与总胆固醇:位于SORT1基因座的先导SNP rs12740374与总胆固醇水平显著相关。分位数回归揭示了次要等位基因T的保护效应随着胆固醇分位数的升高而增强,即在分布的上尾(高风险群体)效应最强。这种异质性对于理解他汀类药物疗效(该SNP可调节他汀类药物的降脂效果)和药物剂量决策具有重要意义。
讨论与展望
Regenie.QRS为生物样本库规模的GWAS中的定量性状提供了一个计算效率高的全基因组分位数回归框架。它是线性回归方法Regenie在分位数回归背景下的对应物,并将现有的边际分位数回归模型扩展到全基因组回归,从而比边际模型具有更高的功效和更好的假阳性控制。
分位数回归的一个可能限制是它需要个体水平的数据,无法利用现有的汇总统计数据。然而,随着许多研究中分子和生物标志物数据生成的增加趋势,此类方法的相关性将日益增强。
未来的扩展工作可以探索针对特定分位数量身定制的自适应GRM估计,以进一步提高检测异质遗传效应的功效。此外,分位数回归在基因组性状预测(如构建提供预测区间的多基因风险评分(Polygenic Risk Score, PRS),而不仅仅是点预测)方面也具有潜在的有趣应用,这将需要惩罚分位数回归方法(如弹性网络(elastic net)与分位数损失函数结合)的可扩展实现。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号