PIC-SURE:面向精准医学的临床与基因组数据整合开源平台

《npj Digital Medicine》:PIC-SURE: an open-source platform for integrating clinical and genomic data

【字体: 时间:2025年12月31日 来源:npj Digital Medicine 15.1

编辑推荐:

  为解决临床与基因组数据整合中的可扩展性、异质性管理和可重复性分析等挑战,哈佛医学院团队开发了开源平台PIC-SURE。该平台集成273项研究142万参与者数据,支持实时队列构建与多组学分析,通过GUI/API双界面实现FAIR原则,为精准医学研究提供标准化基础设施。

  
随着生物医学数据在体积和多样性上的快速增长,整合临床与基因组数据推动精准医学的潜力日益凸显。然而,这种增长同时带来了数据访问与整合的可扩展性挑战、异质性管理难题以及确保研究可重复性和分析效率的瓶颈。现有平台虽然在临床数据提取和多模态数据分析方面有所支持,但大多在大规模基因组整合能力上存在局限,通常仅支持单核苷酸多态性(SNP)分析而缺乏全基因组测序(WGS)数据的整合功能。这些限制与太字节级数据集管理、用户特定权限控制以及数据隐私安全保护等需求相互交织,构成了当前生物医学研究基础设施面临的核心痛点。
为突破这些技术壁垒,哈佛医学院研究团队开发了PIC-SURE(以患者为中心的信息共享平台:研究要素标准化统一)这一开源平台。作为美国国立卫生研究院国家心肺血液研究所(NHLBI)BioData Catalyst?生态系统的核心组成部分,PIC-SURE通过流线型架构实现了临床与基因组数据的无缝整合,支持研究人员进行实时队列识别、假设检验和探索性分析。该平台已整合来自273项研究的1,422,965名参与者数据,涵盖从心血管疾病到肺部疾病等多种临床领域,包括TOPMed项目产生的全基因组测序数据及其关联的丰富临床表型。
平台架构与核心能力
PIC-SURE采用分层设计理念,包含高性能数据存储(HPDS)和应用程序编程接口(API)两大核心模块。HPDS作为开源Java数据库,采用Apache 2.0许可证,在容器化Spring应用中运行,通过REST API为PIC-SURE提供数据服务。其创新之处在于通过数值索引、分类索引和患者索引的三重索引结构,在保证查询性能的同时显著降低存储需求。对于基因组数据,平台采用类似变异呼叫格式(VCF)的差异存储策略,将变异信息表示为患者与参考基因组的差异,并使用位掩码技术高效存储合子性信息,使数据库规模始终控制在200GB以内。
平台提供开放(Open PIC-SURE)和授权(Authorized PIC-SURE)两级访问模式。开放层级允许用户无需登录即可检索临床变量并获取聚合计数进行可行性分析;授权层级则允许获批用户安全查询并准备参与者级别数据用于分析,包括基因组过滤功能。两种模式均支持快速、隐私保护的探索与过滤,使研究人员无需下载数据即可生成分析就绪的队列。
技术方法概要
研究团队采用云端原生架构部署PIC-SURE高性能数据存储(HPDS),使用AWS EC2实例,根据数据量和查询需求动态调整计算与存储资源。临床数据以元数据和数据双文件形式存储,基因组数据统一对齐至GRCh38参考基因组,通过Ensembl变异效应预测器(VEP)进行注释。平台安全设计遵循NIST 800-53 v4框架,获得FISMA中等权限运营授权,确保数据隐私与安全合规。数据整合流程包括提取-转换-加载(ETL)过程,将基因组数据组织为VCF文件,非基因组数据组织为CSV文件,通过标准化管道进行处理。
研究结果展示
功能演示与可重复性验证
通过Open PIC-SURE对肥胖与哮喘共病情况的探索,展示了平台的实用性能。关键词"肥胖"搜索返回15项研究结果,其中妇女健康倡议(WHI)研究筛选出超过50,000名体重指数(BMI)大于30的个体。添加哮喘过滤器后,队列精炼至5,114名同时患有两种疾病的参与者。在授权层级中,进一步添加FTO基因变异过滤条件,识别出370名携带该基因变异的个体,若限制为高严重度变异则队列缩小至50人。这一查询过程在几秒内完成,证明了平台快速生成分析就绪队列和探索共病关系的能力。
在可重复性方面,研究团队成功使用PIC-SURE API复制了ORCHID临床试验针对COVID-19的研究结果。完整的分析代码已在PIC-SURE API GitHub仓库公开,支持完全可重复的端到端分析工作流。平台还提供R和Python的Jupyter Notebook示例,演示从队列定义、数据提取到统计分析的完整流程,包括表型-表型关联分析和跨研究协调化分析等实际应用场景。
使用统计与平台影响力
2024年1月至2025年5月期间,PIC-SURE已被35个国家的2,000多名研究人员使用,产生超过37,000次授权搜索和33,500次开放搜索事件。平台架构设计支持从小型可行性研究到大规模基因组数据集的不同规模项目,证明其在实际研究环境中的可扩展性和实用价值。
研究结论与展望
PIC-SURE通过将大规模异质数据与实时查询能力相结合,成功降低了临床与基因组数据整合分析的技术门槛。其开源特性、标准化API接口和丰富的示例代码,为生物医学研究社区提供了可扩展、可重复的分析基础设施。平台对FAIR原则的贯彻实施,通过透明、文档化的数据访问机制,显著提升了生物医学研究的可重复性。
未来,随着更多先进搜索和过滤功能的加入,PIC-SURE有望支持更广泛的研究需求,进一步推动精准医学研究的发展。该平台不仅解决了当前生物医学数据整合中的关键技术挑战,更为大规模多组学数据的探索性分析和假设检验建立了新模式,为下一代生物医学研究基础设施的发展指明了方向。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号