SPAmix:针对混合人群大规模遗传关联研究的可扩展精准通用分析框架

《Genome Biology》:SPAmix: a scalable, accurate, and universal analysis framework for large-scale genetic association studies in admixed populations

【字体: 时间:2025年10月18日 来源:Genome Biology 9.4

编辑推荐:

  本文推荐了一款名为SPAmix的创新分析工具,旨在解决当前全基因组关联研究(GWAS)在分析混合人群数据时面临的挑战。研究人员开发了这一可扩展、精准且通用的框架,适用于包括定量、二分类、时序、等级和纵向性状在内的多种复杂表型。通过利用个体特异性等位基因频率和回顾性分析,SPAmix能有效校准p值,其混合策略(结合正态分布近似和鞍点近似)显著提高了对罕见变异的分析精度。研究证实,SPAmix在控制I类错误的同时,能发现新的关联信号,强调了遗传多样性在GWAS中的重要性,为大规模生物样本库的跨祖先分析提供了强大工具。

  
随着大型生物样本库的兴起,整合深度遗传信息与电子健康记录(EHR)已成为可能,这极大地拓展了全基因组关联研究(GWAS)的范畴。然而,当前大多数GWAS主要基于欧洲血统的个体,导致对其他人群,特别是混合人群(其遗传祖先来自两个或多个祖先群体)的分析存在显著不足。混合人群为研究遗传多样性、疾病易感性和复杂性状提供了独特机会,但其分析面临巨大挑战,尤其是存在种群分层(population stratification)这一重要混杂因素时。传统的解决方法,如在回归模型中纳入SNP衍生的主成分(PCs)作为协变量,在表型分布存在异质性(例如,定量性状的表型方差异质性或时序性状的基线风险函数异质性)时,往往显得力不从心,甚至可能导致I类错误率的膨胀或收缩。因此,开发一种能够精准、高效地分析混合人群,并适用于各种复杂性状的可扩展方法,成为遗传学领域的迫切需求。
为解决上述问题,北京大学马玉卓、毕文健等研究人员在《Genome Biology》上发表了题为“SPAmix: a scalable, accurate, and universal analysis framework for large-scale genetic association studies in admixed populations”的研究论文,提出了SPAmix这一全新的分析框架。该框架旨在实现对包含数十万混合个体的大规模生物样本库数据进行可扩展、精准且通用的关联分析。
为开展研究,作者主要利用了来自UK Biobank的369,314名无关个体(包括白种英国人和其他多种祖先来源的个体)的基因型和表型数据,以及All of Us队列的数据进行验证。研究涉及的表型包括10种时序性状和11种纵向性状。关键的计算方法包括:基于线性或逻辑回归估计个体特异性等位基因频率(individual-specific allele frequency);采用回顾性分析(retrospective analysis)视角,将基因型视为随机变量;运用混合策略(结合正态分布近似和鞍点近似(SPA))来校准关联检验的p值;并进一步提出了整合局部祖先(local ancestry)信息的SPAmixlocal和通过柯西组合(Cauchy combination)最大化统计效能的SPAmixCCT
SPAmix框架概述
SPAmix框架包含两个核心步骤。第一步是拟合零模型(null model)以计算模型残差。研究人员针对二分类性状、定量性状、时序性状(使用Cox比例风险模型)、等级性状(使用比例优势逻辑回归模型)和纵向性状等分别建立了相应的零模型,并提取残差。第二步是关联分析。对于每个遗传变异,SPAmix利用基因型数据和遗传主成分来估计个体特异性等位基因频率,进而将基因型视为随机变量(假设遵循二项分布),通过回顾性分析校准得分统计量(score statistic) S = ∑GiRi 的p值。其中,混合分析策略至关重要:当中心化的统计量绝对值小于预设阈值时,使用计算高效的正态分布近似;否则,使用更精确的鞍点近似(SPA)来处理分布尾端,尤其是在分析罕见变异或表型分布极度不平衡时。这种设计使得SPAmix无需为每个变异拟合备择模型,大大提升了计算效率。
计算效率与可扩展性
为了评估SPAmix的计算效率,研究人员以UK Biobank数据为例,比较了SPAmix、SPACox和基于Wald检验的gwasurvivr包在分析阿尔茨海默病(事件率0.2%)和原发性高血压(事件率27.1%)时的计算时间。结果显示,SPAmix分别需要501和553个CPU小时,比gwasurvir快11-13倍。更重要的是,当同时分析这两个性状时,SPAmix仅需574个CPU小时,显著低于分别分析的时间总和,体现了其处理多性状分析时的效率优势。这种高效性确保了SPAmix能够适用于大规模生物样本库的分析。
在UK Biobank和All of Us数据中的关联分析
将SPAmix应用于UK Biobank的10种时序性状和11种纵向性状的全基因组分析中,结果表明其能很好地控制I类错误。与仅分析白种英国人(SPACoxWB)相比,SPAmix因包含了所有祖先的个体而显示出更高的统计效能。尤为重要的是,当不同祖先群体的表型分布(如事件率)存在差异时,常规方法如SPACoxALL会产生大量假阳性发现(尤其是对低频和罕见变异),而SPAmix则始终能准确校准p值。通过分析,SPAmix额外发现了377个在5×10-8显著性水平上的基因座,例如与2型糖尿病相关的UBE2E2基因内的rs71317817、与哮喘相关的TLR1基因错义变异rs4833095,以及与青光眼相关的CAV1-CAV2基因座附近的rs10262524,这些发现凸显了在GWAS中纳入祖先多样性的重要性。
在All of Us队列中对原发性高血压的分析进一步验证了SPAmix在更多样化人群中的有效性。多祖先分析(样本量188,941)比欧洲祖先亚组分析(样本量112,080)多发现了38%的显著SNP,例如KCNK3和HFE基因座上的已知信号,以及多祖先分析独特发现的RGL3和CNNM2-NT5C2基因座上的新信号,体现了SPAmix的稳健性和发现新关联的能力。
模拟研究验证性能
通过广泛的模拟研究,研究人员在不同场景下评估了SPAmix的I类错误控制能力和统计效能。模拟了一个由欧洲(EUR)和东亚(EAS)祖先混合的10,000人群体。结果显示,当不同祖先的事件率相同时,SPAmix和SPACox都能较好地控制I类错误。然而,当事件率不同时(模拟场景2),SPAmix依然能准确校准p值,而SPACox则会出现I类错误的严重膨胀或收缩,这取决于等位基因频率(MAF)的差异方向和事件率的大小。例如,当DiffMAF > 0, minMAF较低,且事件率差异较大时,SPACox的I类错误率可膨胀至4.1×10-6(82.4α)。在统计效能方面,SPAmix在多数情况下与使用经验显著性水平校正后的SPACox相当,但在某些MAF差异场景下更具优势。这些结果在模拟三向(欧、非、亚)混合人群时也得到了印证,证明了SPAmix对更复杂祖先结构的适用性。
处理表型异质性与局部祖先信息
SPAmix的一个关键优势在于其对模型设定错误的稳健性。模拟研究表明,在定量性状存在表型方差异质性,或时序性状存在基线风险函数异质性的情况下,即使纳入了主成分作为协变量,常规的线性回归或Cox回归方法也会失效,导致I类错误控制不佳。而SPAmix作为一种回顾性方法,能够很好地应对这些挑战。此外,对于等级性状,当类别样本量比例极度不平衡时(如1000:1:1:1),SPAmix也能保持稳健,而常规方法则会出现错误膨胀。
研究还扩展了SPAmix框架,使其能够利用局部祖先信息进行祖先特异性效应检验(SPAmixlocal),并与Tractor方法进行了比较。在遗传效应同质的情况下,SPAmix通常比Tractor和SPAmixlocal更具效能。而在效应异质的情况下,SPAmixlocal与Tractor效能相似。更重要的是,通过柯西组合p值得到的SPAmixCCT在各种跨祖先遗传架构下都能接近或达到最优效能,成为一个统一的优选方案。此外,在存在方差异质性的情况下,SPAmixlocal和SPAmixCCT能很好地控制I类错误,而Tractor则不能。
结论与展望
本研究提出的SPAmix框架,为大规模生物样本库中包含多种遗传祖先个体的GWAS提供了一个可扩展、精准且通用的解决方案。其创新性在于:采用回顾性分析视角和个体特异性等位基因频率估计来有效处理种群分层;通过混合策略(结合正态近似和鞍点近似)保证了对罕见变异和 unbalanced 表型的分析精度;其模块化设计使其能灵活应用于各种复杂性状;计算效率高,适用于生物样本库规模的数据;并且可扩展至整合局部祖先信息以优化不同遗传架构下的效能。
当然,SPAmix也存在一些局限性,例如目前无法处理样本亲缘关系,不能直接估计遗传效应大小,且主要适用于二倍体物种。未来的工作可集中于扩展其功能以解决这些问题。
总之,SPAmix填补了当前跨祖先复杂性状GWAS方法学上的重要空白。随着All of Us、TOPMed等更多 ancestrally diverse 数据资源的出现,SPAmix有望帮助研究人员发现更多以往被忽视的遗传关联,推动精准医学在更广泛人群中的公平应用。该工具已集成于GRAB R包中,便于研究人员使用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号