
-
生物通官微
陪你抓住生命科技
跳动的脉搏
PGSFusion:面向生物银行规模队列的多基因评分构建与流行病学应用的一站式解决方案
【字体: 大 中 小 】 时间:2025年07月15日 来源:Genome Medicine 10.4
编辑推荐:
本研究针对多基因评分(PGS)构建过程中统计方法复杂、数据格式多样、计算门槛高等问题,开发了PGSFusion网络服务器平台。该研究整合17种PGS构建方法(含单性状、多性状、注释依赖和跨祖先策略),通过自动化参数识别与UK Biobank验证集优化,实现了从GWAS摘要统计到流行病学分析的全流程服务。平台在阿尔茨海默病、身高等案例中验证了其预测性能提升(AUC达0.78以上)和跨群体适用性,为精准医学研究提供了易用、高效且可扩展的工具。
在精准医学时代,多基因评分(PGS)作为个体复杂性状遗传易感性的量化工具,已成为疾病风险预测和治疗决策的重要依据。然而,随着GWAS研究的爆炸式增长,研究人员面临三大挑战:不同PGS方法对遗传架构假设各异(如单正态分布假设的LDpred2与狄利克雷过程先验的SDPR),参考面板格式不统一(如UK Biobank与1000 Genomes Project的数据结构差异),以及流行病学分析流程的碎片化。这些问题使得非生物信息学背景的研究者难以有效利用PGS开展下游研究。
南京医科大学公共卫生学院生物统计学系的研究团队开发了PGSFusion平台,通过整合17种PGS算法和自动化分析流程,解决了上述瓶颈问题。该平台在《Genome Medicine》发表的研究中,展示了其在阿尔茨海默病风险预测(AUC提升至0.847)、东亚人群身高跨祖先预测(R2改善16.9%)等场景中的卓越性能。尤为关键的是,平台首次实现了从PGS构建到遗传-环境交互作用分析的一站式服务,如发现社会经济地位(SES)与AD遗传风险的显著交互效应(P=0.004)。
关键技术方法包括:1)基于ReactJs和Spring Boot构建的自动化分析框架,支持GEMMA等多种摘要统计格式解析;2)利用UK Biobank中50,000例样本作为验证集优化CT、LDpred2等6种方法的超参数;3)整合EUR/EAS/AFR三大人群的LD参考面板;4)开发包含11种分层变量(如健康生活方式评分)的联合效应分析模块。
主要研究结果
方法性能比较:在AD案例中,DBSLMM-auto与MegaPRS-BayesR表现最佳(AUC>0.78),计算效率相差700倍(1.59分钟vs 1113.7分钟)。注释依赖方法AnnoPred通过功能注释加权使预测稳健性提升5%。
跨祖先应用:身高预测中,PRS-CSx与SDPRX分别将R2提升至0.286和0.287,证实多祖先数据整合可突破群体特异性LD模式限制。
多性状建模:结合HDL胆固醇的mtPGS使体重预测R2提高18.4%,揭示遗传相关性状的协同预测潜力。
流行病学发现
风险分层:AD最高PGS组人群的发病风险是最低组的2.45倍(95% CI:1.97-3.05)
环境交互:高SES人群的PGS预测效能显著优于中SES组(ΔAUC=0.074)
非线性效应:健康生活方式对体重的影响呈"U型"曲线(Ptrend=2.75×10-2)
这项研究的创新性在于创建了首个支持全类别PGS方法的标准化平台,其模块化设计允许未来便捷整合新算法。通过将UK Biobank转化为"活体验证库",研究者突破了传统PGS研究中外部验证数据匮乏的局限。更重要的是,平台揭示的遗传-环境交互模式(如SES对AD预测的修饰作用)为精准预防策略提供了分子流行病学依据。随着All of Us等超大规模队列数据的释放,PGSFusion的自动化、可扩展特性将加速复杂疾病遗传架构的解析进程。
生物通微信公众号
知名企业招聘