
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于汇总统计量直接计算遗传风险评分的新方法及其在1型糖尿病中的应用
【字体: 大 中 小 】 时间:2025年07月03日 来源:Bioinformatics Advances 2.4
编辑推荐:
本研究针对遗传风险评分(GRS)计算中原始基因数据获取困难的技术瓶颈,开发了仅需单核苷酸多态性(SNP)频率、连锁不平衡(LD)等汇总统计量即可模拟SNP阵列并计算GRS的创新算法。通过1型糖尿病(T1D)的67-SNP GRS验证,证实模拟结果与真实基因数据计算的GRS在群体均值、ROC曲线下面积(AUC=0.914 vs 0.917)等关键指标高度一致,为跨群体遗传风险评估提供了高效便捷的计算工具。
在精准医学时代,遗传风险评分(GRS)已成为疾病风险评估的重要工具。然而传统GRS计算需要获取原始基因型数据,面临数据共享的伦理壁垒和技术门槛。特别是当需要在不同人群、不同疾病亚型或不同地理区域进行跨数据集比较时,原始数据的获取往往成为研究瓶颈。英国埃克塞特大学的研究团队在《Bioinformatics Advances》发表的这项研究,开创性地提出仅需SNP频率、LD相关系数等汇总统计量即可直接计算GRS的新范式。
研究团队开发的三步算法框架包括:1)收集SNP等位基因频率、相关系数和Hardy-Weinberg平衡偏离比例;2)通过迭代优化算法模拟满足上述统计特征的SNP阵列;3)基于模拟阵列计算包含线性项和交互项的复合GRS。关键技术涉及网络分析确定SNP相关群组、损失函数优化相关系数匹配度等创新方法。测试采用1000 Genomes和UK Biobank数据,重点验证了包含HLA区域SNP的T1D风险评分模型。
比较最终GRS
在1000G五大超级群体(EUR/AFR/AMR/EAS/SAS)中,模拟GRS与真实GRS均值差异小于0.1(如欧洲群体10.38 vs 10.31)。UK Biobank的T1D病例对照分析显示,模拟数据的AUC达0.914(95%CI:0.898-0.929),与真实数据0.917(0.903-0.93)无显著差异。
GRS子部分分析
将评分分解为HLA区域(23个SNP)、非HLA区域和交互项三部分,模拟数据均能准确再现各组分特征。特别是高度连锁的HLA区域SNP,其相关系数经优化后与真实数据匹配度达损失函数容忍阈值(0.03)。
SNP阵列结构验证
主成分分析(PCA)显示,模拟数据在二维空间中的群体分布模式与真实数据高度一致。如图6所示,五大超级群体在模拟数据中保持与真实数据相似的分离模式。值得注意的是,当采用群体而非超级群体层面的统计量时(如AMR超级群体下的四个亚群),模拟结果能更好捕捉群体细微差异。
这项研究的突破性在于建立了基因数据"降维"计算的可行性范式。通过精确模拟SNP阵列的关键统计特征,实现了在不接触原始基因数据情况下的GRS计算,显著降低了多中心研究的合规成本。研究者特别指出,该方法对包含复杂交互项的GRS(如T1D评分中18对SNP的交互效应)同样有效,为罕见变异研究提供了新思路。
值得关注的是,该方法性能与输入统计量的粒度密切相关。研究显示,对于遗传异质性较高的群体(如美洲人群),采用亚群体层面的统计量能显著提升模拟精度。未来随着各研究机构逐步开放SNP频率和LD数据共享,该方法有望成为跨群体遗传研究的标准化工具,推动GRS在临床风险评估中的广泛应用。
生物通微信公众号
知名企业招聘