AoUPRS:面向“全民健康计划”的高性价比多基因风险评分计算工具开发与应用

【字体: 时间:2025年05月23日 来源:BMC Genomics 3.5

编辑推荐:

  针对“全民健康计划”(AoU)基因组数据分析成本高、效率低的难题,研究人员开发了基于Hail框架的AoUPRS工具,通过对比MatrixTable(MT)与Variant Dataset(VDS)两种数据格式,证实VDS可将计算成本降低85%-99.5%且保持PRS预测效能(AUC差异<0.005)。该工具为大规模基因组风险评估提供了经济高效的解决方案。

  

基因组学研究正迎来大数据时代,但海量数据的处理成本成为阻碍科研进展的“拦路虎”。美国国立卫生研究院(NIH)发起的“全民健康计划”(All of Us, AoU)拥有24.5万份全基因组测序(WGS)数据,然而现有工具在计算多基因风险评分(Polygenic Risk Score, PRS)时面临两大痛点:一是必须使用云端计算平台,按量付费模式下传统方法成本高昂;二是数据规模庞大导致计算效率低下。这使许多研究者,特别是资源有限的团队,难以充分利用这一宝贵资源。

为破解这一难题,来自斯克里普斯研究所等机构的研究团队开发了AoUPRS工具,创新性地利用Hail框架下的两种数据格式——密集矩阵(MatrixTable, MT)和稀疏矩阵(Variant Dataset, VDS)进行PRS计算对比。研究发现,采用VDS格式不仅将51个SNP的PRS计算成本从32美元骤降至0.036美元(降幅99.51%),对216,487个SNP的大规模评分也能节省95.75%成本。更关键的是,这种“省钱的捷径”并未牺牲准确性:三种疾病(冠心病、房颤和2型糖尿病)PRS的曲线下面积(AUC)比较显示,MT与VDS结果差异均小于0.005,Lin一致性相关系数(CCC)高达0.9199-0.9944。相关成果发表于《BMC Genomics》,为大规模基因组研究提供了经济高效的解决方案。

研究团队采用三项关键技术:1)基于Hail框架并行处理AoU数据库193,835例WGS数据;2)通过Variant Annotation Table(VAT)过滤低质量变异,确保VDS计算的可靠性;3)采用逻辑回归和ROC分析评估PRS预测效能,辅以CCC和累积分布函数(ECDF)验证结果一致性。

成本与性能分析
对比MT与VDS的计算成本发现,随着SNP数量增加,VDS优势愈发显著。对于包含110万SNP的T2D评分,VDS将成本从50美元压缩至7.5美元,耗时仅增加1倍(38 vs 76分钟)。这种“时间换金钱”的策略特别适合预算有限的研究。

预测效能评估
以冠心病PRS(PGS000746)为例,MT与VDS计算的比值比(OR)分别为1.090和1.092,置信区间完全重叠;房颤PRS(PGS002774)的AUC差异仅0.0011。ECDF曲线几乎重合,直观证实两种方法结果分布的一致性。

技术差异解析
MT格式因包含全部基因型信息,更适合常见变异分析;而VDS通过稀疏存储和“未检出即参照”的假设,显著提升存储效率。研究证实,VDS对罕见变异保留更完整,但通过VAT过滤可有效规避低质量数据干扰。

这项研究的意义在于:首先,AoUPRS工具已开源(GitHub平台),配备详细教程,显著降低基因组研究的入门门槛;其次,VDS方法使研究者能充分利用AoU提供的300美元免费计算额度开展更多探索;最后,研究为其他大型队列(如UK Biobank)的数据处理提供了可借鉴的优化范式。正如作者所言,在保证科学严谨性的前提下,“用1美元完成原来需要20美元的工作”,这种性价比革命将加速精准医学的普惠化进程。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号