编辑推荐:
在遗传风险预测领域,非欧洲人群因 GWAS 样本量和调优数据集有限,预测准确性受限。研究人员开展了关于多群体遗传风险预测的研究,提出 JointPRS 框架。结果显示,其在多种数据场景下优于其他方法。这为多群体遗传风险预测提供了新途径。
遗传风险预测在医学研究和临床实践中占据着重要地位,它能帮助人们提前知晓疾病风险,从而采取针对性的预防和治疗措施。多基因风险评分(Polygenic Risk Scores,PRS)作为预测复杂性状的有力工具,近年来备受关注。它通过对多个遗传变异的风险等位基因进行加权求和,以此评估个体患某种疾病的风险 。然而,目前大多数 PRS 是基于欧洲人群开发的。这是因为在全基因组关联研究(Genome-Wide Association Study,GWAS)中,大型欧洲队列占据主导地位。相比之下,非欧洲人群的 PRS 预测准确性较低。
造成这种差异的原因主要有两点。一方面,非欧洲人群用于模型训练的 GWAS 汇总统计数据和用于参数调优的个体水平数据集都非常有限,这严重阻碍了仅依赖非欧洲数据集开发的群体特异性 PRS 的发展。另一方面,欧洲和非欧洲人群之间存在显著的遗传结构差异,例如单核苷酸多态性(single - nucleotide polymorphisms,SNPs)数量不同以及连锁不平衡(linkage disequilibrium,LD)模式各异,这使得欧洲 PRS 预测模型难以直接应用于非欧洲人群。这种遗传风险预测性能的差距进一步加剧了健康不平等问题,因此,提高非欧洲人群 PRS 预测准确性迫在眉睫。
为了解决这一难题,耶鲁大学公共卫生学院等机构的研究人员展开了深入研究,并提出了 JointPRS 这一创新的贝叶斯框架。该研究成果发表在《Nature Communications》上,为多群体遗传风险预测带来了新的突破。
研究人员在研究过程中,主要运用了以下关键技术方法:
- 模型构建:构建了 JointPRS 模型,该模型假设 SNP 效应大小遵循相关高斯先验分布,并通过引入交叉群体协方差矩阵Σ来捕捉群体间的共享模式。同时,采用连续收缩(CS)先验灵活地考虑遗传变异效应大小的不同稀疏水平。
- 数据处理:收集了来自多个群体的 GWAS 汇总统计数据,并进行质量控制,去除重复 SNP,确保不同 PRS 模型的公平比较。利用 UK Biobank(UKBB)和 All of Us(AoU)项目的个体水平遗传数据进行调优和基准测试。
- 模型评估:在三种数据场景下对 JointPRS 和其他六种先进的多群体 PRS 方法进行比较评估,包括无调优数据、调优和测试数据来自同一队列以及调优和测试数据来自不同队列的情况。通过模拟实验和真实数据分析,评估各方法在不同群体和性状上的预测准确性和稳健性。
研究结果主要包括以下几个方面:
- 模拟实验结果
- 无调优数据时:在非欧洲人群训练样本量较大且性状高度多基因的情况下,JointPRS-auto 在准确性和稳健性方面优于其他自动方法(如 XPASS、SDPRX 和 PRS-CSx-auto)。例如,在 EAS 群体中,JointPRS-auto 相较于 XPASS 的性能提升可达 199.00% 。
- 有调优数据时:JointPRS 在大多数情况下表现出色,尤其在非欧洲人群训练样本量较大且性状高度多基因时,优势更为明显。在不同调优样本量(500、2000、5000 和 10000)下,JointPRS 在 SAS 和 AMR 群体中均取得了最佳性能。
- 真实数据分析结果
- 无调优数据:在 UKBB 数据集中,针对 22 种定量性状和 4 种二元性状的分析表明,JointPRS-auto 在四个非欧洲人群(EAS、AFR、SAS 和 AMR)中始终优于其他三种自动方法。在 EAS 群体中,JointPRS-auto 相较于 XPASS 的平均性能提升为 46.14% 。
- 调优和测试数据来自同一队列:在 UKBB 数据集中进行 5 折交叉验证,结果显示 JointPRS 在准确性和稳健性方面优于其他方法。在 GLGC 性状中,JointPRS 和 SDPRX 在 EAS 和 AFR 群体中表现最佳,但 JointPRS 在大多数评估性状上比 SDPRX 更准确、更稳健。
- 调优和测试数据来自不同队列:以 UKBB 数据为调优集,AoU 数据为测试集,对 9 种定量性状在 AFR 和 AMR 群体中的分析表明,JointPRS 在准确性和稳健性方面再次优于其他方法。在 AMR 群体中,JointPRS 相较于 XPASS 的平均性能提升高达 172.00% 。
研究结论和讨论部分指出,JointPRS 是一种高效的多群体 PRS 构建方法,即使仅使用 GWAS 汇总统计数据也能实现准确预测。它整合了连续收缩模型,纳入了遗传相关结构,并同时对多个群体进行建模。当有调优数据集时,其数据自适应方法能有效结合荟萃分析和调优策略的优势。与其他方法相比,JointPRS 在不同数据场景、群体和性状下均表现出更稳健和准确的性能。然而,JointPRS 也存在一定的局限性,例如目前仅限于 HapMap3 SNPs,且未考虑罕见变异或大效应变异。未来,将更多的变异整合到 JointPRS 中,有望进一步提高其在非欧洲人群中的预测性能。此外,缩小欧洲和非欧洲人群预测准确性的差距,还需要更大规模的非欧洲人群 GWAS 样本。总体而言,JointPRS 为多群体遗传风险预测提供了一种可靠的方法,有助于推动个性化医疗的发展,为改善全球人群的健康状况提供了重要的技术支持。