基于Spike-and-Slab LASSO先验的稀疏多基因风险评分推断方法SSLPRS及其在复杂性状预测中的应用

《Bioinformatics》:Sparse Polygenic Risk Score Inference with the Spike-and-Slab LASSO

【字体: 时间:2025年10月18日 来源:Bioinformatics 5.4

编辑推荐:

  本研究针对高维基因组数据中多基因风险评分(PRS)推断的挑战,提出了一种基于Spike-and-Slab LASSO(SSL)先验的SSLPRS新方法。通过推导支持GWAS汇总统计量的坐标上升推理算法,在UK Biobank真实数据和模拟实验中证明,该方法在预测精度上与传统方法相当,但在变量选择性能上表现优异,尤其适用于稀疏遗传架构,实现了正预测值超过50%的提升,为复杂性状的遗传解析提供了更有效的工具。

  
随着大型生物样本库的快速发展,研究人员现在能够获取数十万样本的表型和基因组数据,这为解析复杂性状和疾病的遗传基础提供了前所未有的机会。多基因风险评分(Polygenic Risk Score, PRS)作为一种量化复杂性状和疾病遗传成分的重要工具,在遗传风险分层和个性化医疗等领域展现出广阔的应用前景。然而,从大规模全基因组关联研究(Genome-Wide Association Study, GWAS)数据中推断多基因风险评分面临两大挑战:一是由于隐私限制,个体水平数据很少公开可用,研究只能基于GWAS汇总统计量进行推断;二是遗传数据的超高维特性,现代生物样本库通常包含超过2000万个遗传标记,而最大的GWAS样本量也很少超过200万样本。
目前主流的PRS推断方法主要分为两类:稀疏贝叶斯先验方法和惩罚回归技术。稀疏贝叶斯方法如VIPRS和PRS-CS能够提供准确无偏的效应大小估计,但其系数并非真正稀疏,这在一定程度上限制了其解释性和实际应用。另一方面,传统惩罚回归方法如LASSO虽然能够产生稀疏的效应大小估计,但存在过度收缩大系数的问题,从而引入估计偏差。这两种方法在计算效率方面也存在明显差异,基于优化的方法如VIPRS在典型GWAS数据集上仅需15分钟,而基于马尔可夫链蒙特卡洛(Markov-Chain Monte-Carlo, MCMC)的贝叶斯方法如PRS-CS则需要数小时。
为了克服现有方法的局限性,麦吉尔大学的研究团队在《Bioinformatics》上发表了一项创新性研究,提出了基于Spike-and-Slab LASSO(SSL)先验的SSLPRS方法。该方法在理论框架上架起了稀疏贝叶斯方法和传统惩罚回归方法之间的桥梁,既保留了贝叶斯方法的统计优势,又具备惩罚回归方法的计算效率。
研究人员开发的关键技术方法主要包括:推导了支持GWAS汇总统计量的坐标上升最大后验(Maximum A Posteriori, MAP)估计算法,实现了比个体水平数据实现高几个数量级的计算效率;提出了动态后验探索策略,通过逐渐增加λ0值的阶梯进行热启动优化;建立了超参数选择标准,包括设置σ2=1(基于数据标准化假设)、b=p、a=0.05/(1-0.05)b使得beta先验均值为0.05,反映数据集中5%的因果性估计;利用UK Biobank中337205名无关英国白人样本的基因型和表型数据,对9个数量性状进行5折交叉验证分析。
简单模拟研究
通过设计包含24个SNP的简单模拟实验,研究人员直观展示了SSL先验的特性。结果显示,SSLPRS能够同时实现变量选择和稳定的效应大小估计,随着λ0阶梯的增加,所选变异的效应保持稳定,其余变异被精确收缩为零。即使在紧密的相关结构下,SSLPRS在整个阶梯上的变量选择性能在Matthews相关系数(Matthews Correlation Coefficient, MCC)方面表现良好。相比之下,LASSO随着惩罚强度的增加会过度收缩效应,导致变量选择性能不稳定和下降。
UK Biobank数据模拟
在9种模拟设置下的5次重复分析表明,SSLPRS在所有设置中都表现出比LASSO和SSLPRS-GS更低的召回率但显著更高的精确度。这种差异源于SSLPRS在λ0阶梯末端选择变异,导致识别出的因果变异数量较少但置信度更高。总体而言,SSLPRS实现了平衡的变异选择,在大多数设置中表现出优越的MCC性能。在预测性能方面,SSLPRS-GS在多基因(θ=0.01)场景下比SSLPRS更具鲁棒性,其伪Pearson-R2分数与基线模型相当或更优。
UK Biobank真实表型分析
通过对UK Biobank中9个数量性状的5折交叉验证分析,SSLPRS-GS在所有检查的表型中显示出与基线模型具有竞争力的预测精度。在某些表型中观察到模型之间存在微小但显著的差异。例如,在身高方面,使用网格搜索调整超参数的模型比VIPRS和PRS-CS性能提高达10%;在低密度脂蛋白(Low-density Lipoprotein, LDL)胆固醇方面,与PRS-CS相比显示出高达16%的改进。跨表型分析显示,SSLPRS-GS匹配或优于LASSO,在如LDL胆固醇等性状中具有优势。
所选变异的富集和重复性
对39个基因组注释的功能富集评估显示,在变量选择场景中表现最好的模型SSLPRS和VIPRS,在通常用于划分性状遗传力的生物学注释中表现出显著的富集。值得注意的是,这些变异在改变脂质调节基因中氨基酸序列从而改变蛋白质功能的非同义位点,以及启动子和增强子等调控元件中最为富集。通过考察全球脂质遗传学联盟(Global Lipids Genetics Consortium, GLGC)提供的样本量超过160万的汇总统计量,发现SSLPRS在LDL和HDL性状中均表现出最高的重复率,其次是VIPRS。
可扩展性和计算性能
通过对比SSLPRS与基于个体水平的R语言SSLASSO在UK Biobank身高数据染色体22相同数据集上的表现,SSLPRS实现了多个数量级的改进。具体而言,SSLPRS的平均推理时间为5.3秒,峰值内存使用量为73MB,而SSLASSO分别为22.4分钟和4100MB。
该研究提出的SSLPRS方法在复杂性状的多基因风险预测方面取得了重要进展。通过结合竞争性的预测精度和强大的变量选择性能,特别是在稀疏遗传架构中,该方法为有效且可解释的PRS构建提供了新工具。SSLPRS通过针对模式的MAP坐标上升算法进行动态后验探索,能够产生真正的稀疏效应大小估计,保留高质量且具有生物学意义的变异集合而不会过度收缩。此外,SSLPRS配备快速、内存高效且高度可扩展的算法,可用于全基因组推断。未来扩展可探索通过MCMC或变分推理对SSL进行后验均值估计,实现类似VIPRS的密集回归方法,这将进一步丰富PRS方法工具箱,为理解和预测复杂性状的遗传基础提供更强大的分析工具。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号