STREAM-PRS:多工具集成流水线优化多基因风险评分计算,提升炎症性肠病风险预测效能

【字体: 时间:2025年10月11日 来源:Genome Medicine 11.2

编辑推荐:

  为解决多基因风险评分(PRS)计算工具多样性和结果可移植性难题,研究人员开发了STREAM-PRS流水线,整合PRSice-2、PRS-CS、LDpred2、lassosum和lassosum2五种工具,通过参数优化、主成分校正和标准化处理,在炎症性肠病(IBD)队列中实现最佳预测性能(R2=0.203,AUC=0.75),为复杂疾病遗传风险评估提供标准化解决方案。

  
在精准医学时代,多基因风险评分(Polygenic Risk Score, PRS)已成为评估个体复杂疾病遗传易感性的重要工具。然而,PRS领域面临多重挑战:不同计算工具(如PRSice-2、PRS-CS等)采用迥异的连锁不平衡(Linkage Disequilibrium, LD)处理和效应值收缩策略,导致结果差异显著;人群分层和评分可移植性问题进一步增加临床应用的复杂性。更棘手的是,尚无单一工具能在所有场景中保持最优性能,研究者常需反复测试多种工具和参数,过程繁琐且缺乏标准化流程。
为解决这些问题,Becelaere等人开发了STREAM-PRS(Streamlined Toolkit for Reliable Evaluation and Analysis of Multiple Polygenic Risk Scores)——一个集成五大主流工具的多基因风险评分计算流水线,研究成果发表于《Genome Medicine》。该研究以炎症性肠病(Inflammatory Bowel Disease, IBD)为模型疾病,展示了如何通过系统化工具比较、参数优化和标准化处理,显著提升PRS的预测效能与跨队列可移植性。
研究采用的核心技术方法包括:基于1000基因组计划非芬兰欧洲人群(1 KG-NFE)的训练集参数调优;整合PRSice-2(C+T策略)、PRS-CS(贝叶斯收缩)、LDpred2(贝叶斯建模)、lassosum和lassosum2(惩罚回归)五大工具;通过主成分(PC)校正消除人群分层效应;采用HapMap3 SNP集增强评分可移植性;使用英国生物银行(UK Biobank)作为测试集,本地IBD队列作为验证集进行性能评估。
方法学构建与优化
STREAM-PRS包含四个核心步骤:GWAS摘要统计数据质量控制、多工具PRS计算、PC校正与标准化、最佳评分选择。研究团队首先对基础GWAS数据进行质控,移除模糊SNP(如C/G和A/T)、多等位基因位点和重复变异,并针对不同工具需求生成三种格式化文件。值得注意的是,限制使用HapMap3 SNP显著提升了训练集与验证集的重叠率(从77.84%升至97.52%),直接改善R2表现(从0.075升至0.106)。PC校正步骤有效解决了欧洲人群内部的细微分层问题,使不同亚人群评分分布趋于一致,后续标准化处理(均值归零、标准差归一)确保评分跨工具可比性。
工具性能系统比较
研究共生成472种评分组合,在UK Biobank测试集中系统评估各工具性能:
  • PRSice-2:采用传统Clumping+Thresholding(C+T)策略,R2范围0.011–0.017
  • PRS-CS:基于贝叶斯收缩方法,R2范围0.015–0.027
  • LDpred2:应用贝叶斯建模,R2范围0.0002–0.010
  • lassosum:采用lasso惩罚回归,R2范围0.001–0.029(最优工具)
  • lassosum2:基于ridge回归,R2范围0.001–0.006
lassosum以收缩值0.7、lambda值0.008859的参数设置成为最优工具,共筛选39,338个SNP进入模型,其中31,914个在UK Biobank中可用。其表现显著优于其他工具(Nagelkerke R2=0.029, P=5.85e-270),且病例-对照比例调整实验证明该优势在不同抽样条件下保持稳定。
预测效能与临床意义
在独立验证集(比利时IBD队列)中,最优lassosum评分解释方差达20.3%(OR=2.60, P=1.15e-94),AUC为0.7507(95% CI: 0.7321–0.7694)。值得注意的是,评分表现出高阳性预测值(0.9048)但低阴性预测值(0.3405),表明其擅长识别高风险个体而非排除低风险人群。这种特性提示PRS在IBD早期筛查和高危人群分层中具有应用潜力,但需结合其他生物标志物提升综合预测能力。工具间评分相关性分析显示,lassosum与PRS-CS相关性最高(r=85.4%),且两者在top 5%高风险个体中重叠率达56.4%,表明性能相近工具具有一致性识别能力。
讨论与展望
该研究首次系统比较五大PRS工具在IBD中的表现,证明工具选择对预测效能具有决定性影响。STREAM-PRS的价值在于:
  1. 1.
    提供标准化框架解决工具选择难题,避免研究者因单一工具局限获得次优结果
  2. 2.
    通过PC校正和HapMap3 SNP限制显著提升评分可移植性,解决跨队列应用核心痛点
  3. 3.
    明确lassosum在IBD预测中的优势地位,为后续研究提供方法学参考
局限性与未来方向包括:当前流程仅适用于非混合人群,需扩展至多祖先群体;部分工具(如PRS-CS)计算资源需求较高;HapMap3 SNP限制可能遗漏重要疾病关联位点(如IBD相关NOD2基因变异)。作者建议未来开发可整合局部祖先信息的适配工具,并探索结合环境因素(如吸烟行为)和炎症标志物(如钙卫蛋白)的多模态预测模型。
STREAM-PRS已开源发布(https://github.com/SaraBecelaere/STREAM-PRS),其灵活性和可扩展性为复杂疾病遗传风险评估树立了新标准,推动PRS从研究方法向临床工具转化。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号