CFDE工作台:整合Common Fund项目的元数据与处理数据,推动生物医学研究的FAIR化与AI就绪

《Journal of Molecular Biology》:The CFDE Workbench: Integrating Metadata and Processed Data from Common Fund Programs

【字体: 时间:2026年01月08日 来源:Journal of Molecular Biology 4.5

编辑推荐:

  本刊推荐:为解决NIH Common Fund(CF)多项目数据难以互通和整合的问题,研究人员开展了“CFDE工作台”这一主题研究。该工作台通过建立数据门户、信息门户、提交系统、搜索引擎及AI助手等组件,集成了来自多个CF数据协调中心(DCC)的标准化元数据(C2M2模型)、处理数据(如知识图谱断言、基因集库XMT)和分析工具。研究结果表明,该平台显著提升了CF数据的可发现性、可访问性、互操作性和可重用性(FAIR原则),并使其具备人工智能(AI)分析就绪状态,为跨项目的生物医学知识发现提供了强大支撑。

  
在当今生物医学研究领域,数据量正以前所未有的速度增长。美国国立卫生研究院(NIH)的Common Fund(CF)项目自2006年启动以来,资助了众多雄心勃勃的跨机构研究计划,如基因型-组织表达(GTEx)、人类微生物组计划(HMP)、LINCS项目等。这些项目产生了海量的、多样化的高维数据集,涵盖了从人类和小鼠细胞、组织的多组学(Omics)分析到成像和临床测量等深度表型数据。然而,一个巨大的挑战也随之而来:这些由不同CF项目产生的高价值数据,如同散落在各处的“信息孤岛”,彼此之间缺乏有效的连接和互通。研究人员若想综合利用来自不同CF项目的数据来回答复杂的科学问题,往往需要耗费大量精力在不同数据门户、不同数据格式和不同访问方式之间周旋。数据的可发现性、可访问性、互操作性和可重用性——即FAIR原则——难以得到保障,这严重阻碍了数据价值的充分发挥,特别是对于需要整合多源数据的人工智能(AI)分析而言,更是构成了巨大障碍。
为了破解这一困境,NIH Common Fund数据生态系统(CFDE)项目应运而生,其核心目标正是促进跨多个CF项目的数据可访问性和互操作性。作为CFDE项目的重要组成部分,数据资源中心(DRC)承担了开发CFDE工作台(CFDE Workbench)的重任。这项研究成果正式发表在《Journal of Molecular Biology》上,它系统介绍了一个基于网络的综合性平台,该平台旨在托管、整合并展示由CFDE及其参与项目贡献的经过处理的标准化数据、元数据、分析工具和实际应用案例。
研究人员开展这项研究,旨在构建一个统一的入口和操作环境,使得生物医学研究者能够轻松地发现、访问、分析并整合来自不同CF项目的资源。他们并非简单地汇集原始数据,而是致力于提供经过标准化、抽象化处理的知识表示,例如统一的元数据模型、基因集库、知识图谱断言等,并开发了一系列下游分析工具,使得跨CF项目的知识发现变得前所未有的便捷。研究得出的结论是,CFDE工作台成功地整合了来自众多CF数据协调中心(DCC)的资源,通过其数据门户、信息门户、智能搜索引擎、AI助手以及丰富的分析工具集,有效地将CF资源变得协调一致、符合FAIR原则且为AI分析做好准备。其重要意义在于,它为生物医学研究社区提供了一个强大的、一站式的平台,极大地促进了跨CF项目的协作和数据驱动的新发现,加速了从数据到知识的转化过程。
为开展此项平台构建研究,作者团队主要运用了以下几项关键技术方法:1. 标准化元数据模型与数据提交系统:建立了跨领域元数据模型(C2M2),并开发了在线数据/元数据/代码资产提交系统,支持来自18个CF参与项目的数据协调中心(DCC)上传标准化资产,并利用FAIRshake工具进行FAIR度自动评估。2. 数据集成与数据库构建:将提交的C2M2元数据包、XMT(如GMT/DMT)基因集库、知识图谱(KG)断言、属性表等处理数据,通过提取-转换-加载(ETL)流程整合到关系型数据库(如PostgreSQL)中,建立索引并构建用于快速全文搜索的扁平化表。3. 网络平台与云基础设施开发:使用Next.js等框架开发了数据门户(含数据矩阵、搜索引擎、AI助手)和信息门户,采用基于Docker容器和Kubernetes编排的云原生架构(部署于亚马逊AWS云)来托管平台各个组件。4. 人工智能与知识图谱技术应用:集成大型语言模型(LLM,如GPT-4/GPT-5)构建AI助手,通过模型上下文协议(MCP)服务器连接CFDE资源与工作流(如Playbook Workflow Builder);利用Neo4j等图数据库存储和查询知识图谱数据,支持复杂关联发现。5. 下游分析工具链创建:开发了包括Playbook Workflow Builder (PWB)、基因集富集分析(CFDE-GSE)、GeneSetCart、CFDE-DD-KG-UI(基于Cytoscape.js)、基因与药物着陆页聚合器(GDLPA)等一系列交互式生物信息学分析工具,并与平台深度集成。
METHODS AND RESULTS
The CFDE Workbench Workflow
CFDE工作台主要由数据门户(https://data.cfde.cloud/)和信息门户(https://info.cfde.cloud/)两大组件构成。数据门户负责编目来自各参与DCC的多种标准化处理数据、元数据文件及其他数字资产,用户可通过数据矩阵下载或搜索引擎查找。信息门户则提供关于各DCC及CFDE联盟活动(如培训、合作项目、协议)的相关信息。研究通过图示展示了工作台如何接收DCC提交的资产,经评估后提供给数据矩阵、搜索引擎,并支撑下游工具(如PWB, GeneSetCart等)的运行,形成了一个从数据汇入到知识发现和工具应用的完整工作流。
The CFDE Workbench Submission System
为了高效协同地将资产摄入工作台,DRC实施了一套数据和元数据提交系统。该系统为用户分配不同角色(普通用户、DCC提交者、DCC批准者、DRC审核者),并提供两种用户友好的输入表单:用于上传数据/元数据文件的表单和用于提交代码资产URL及描述的表单。提交的资产会使用FAIRshake工具进行FAIR度评估,评估结果以徽章形式显示,供DCC参考改进。该系统使得DCC能够控制其资产的可见性,并标记最新版本。资产类型主要包括文件资产(如C2M2包、KG断言、XMT、属性表)和代码资产(如ETL脚本、API文档、实体页面模板、PWB元节点、模型等)。
Metadata Packages for Capturing Common Metadata Elements
跨领域元数据模型(C2M2)是确保CF资源间数据可发现性的关键,它使用本体和受控词表(如Uberon用于解剖学,HPO用于表型等)来协调不同DCC及其资产的术语。C2M2包包含大约50个相关表中的元数据项,涉及DCC、项目、样本、文件等。工作台将C2M2的TSV(制表符分隔值)文件摄入数据库,并利用外键约束生成完全扁平化(FFL)表进行索引和快速全文查询。截至2025年12月,工作台包含约206万个生物样本和超过612万个文件记录,并对主要数据字段和DCC贡献情况进行了统计汇总。
The CFDE Workbench Data Matrix
数据矩阵(https://data.cfde.cloud/matrix)是数据门户的核心组件,它汇总了来自约18个CF参与项目的可用资产。虽然各个CF DCC仍负责托管其项目产生的原始数据,但数据矩阵使用户能够在一个位置访问来自不同CF项目的、经过标准化和抽象的知识表示。它跟踪来源,对提交的文件进行FAIR评估,并支持与OpenAPI、SmartAPI等社区标准以及PWB元节点、MCP服务器规范等内部CFDE标准的集成。
The CFDE Workbench Data Portal Search Engine
工作台搜索引擎为用户提供了友好的查询界面,可统一搜索CF项目的高处理数据、元数据、工具和分析平台。它支持搜索语法(如AND, OR, 排除等),并能返回C2M2元数据搜索结果和处理数据搜索结果。用户可以对结果进行过滤(按疾病、物种、解剖部位、DCC等),并下载JSON格式的详细信息。搜索结果还链接到下游生物信息学工具,例如,搜索特定人类基因名,会返回可用于进一步分析该基因的CFDE工具卡片,点击后可直达工具界面进行深入分析。
The CFDE Workbench AI Assistant
工作台集成了AI助手(https://data.cfde.cloud/chat),它利用OpenAI的Responses API将用户查询发送至LLM(如GPT-4),LLM通过查询与CFDE资源连接的MCP服务器来获取信息并选择适当工具(包括执行PWB工作流)。该助手可以回答关于CF项目、出版物、数据分析方法等问题,并能直接在工作流中可视化结果。通过对多种LLM(如GPT-3.5, GPT-4, GPT-5, Mistral Large等)在回答CFDE相关问题上的表现进行人工盲评,发现GPT-5表现最佳。系统提示词被设计用于减少“幻觉”,要求助手严格使用MCP服务器信息并仅回答与CFDE/CF/DCC相关的问题。
CFDE Workbench Downstream Analysis Tools
整合来自CF项目集合的数据、元数据和API,促进了能够结合多个CF数据集和工具进行假设生成的下游分析工具的诞生。这些工具包括Playbook Workflow Builder (PWB)、GeneSetCart、CFDE基因集富集分析(CFDE-GSE)、基因与药物着陆页聚合器(GDLPA)、FAIRshake以及CFDE数据精炼知识图谱用户界面(CFDE-DD-KG-UI)等。工作台设有专门版块展示利用这些工具创建的25个应用案例。CFDE-GSE和GeneSetCart的功能也被嵌入数据门户,用户可直接进行基因集富集分析或交叉分析。
The CFDE Workbench Gene Set Enrichment (CFDE-GSE) Tool
为了进一步促进跨CF项目的发现,DRC系统地将CF数据集处理成基因集库,并通过CFDE-GSE(https://gse.cfde.cloud)提供服务。CFDE-GSE将来自8个CF项目(LINCS, GTEx, Metabolomics, IDG, GlyGen, KOMP2, MoTrPAC, HuBMAP)的10个基因集库存储在Neo4j图数据库中,提供基于Fisher精确检验的富集分析功能,并能查询基因、药物、代谢物、组织等实体在整合CF知识中的关联。
Use Case 1: Finding Drugs to Modify Disease Genes that Change in Expression with Age
通过结合LINCS和GTEx等CF项目的数据,以及GWAS Catalog、ClinVar等来源的疾病基因信息,工作台工具可用于优先考虑潜在生物标志物和新型疗法。以阿尔茨海默病(AD)为例,研究人员将alzGene数据库中的70个AD相关基因提交至CFDE-GSE,针对GTEx衰老基因集库进行富集分析,发现了6个在血液中随年龄增长表达变化的基因(如PLAU)。随后,通过CFDE AI助手查询LINCS数据,找到了能最大程度降低PLAU表达的候选药物NXY-059,展示了平台在发现潜在疗法方面的能力。
Use Case 2: Discovering Unique Information About a Gene from Common Fund Datasets
工作台通过整理、协调和处理来自众多CF项目的基因和蛋白质数据,提供了关于所有人类基因和蛋白质的经过消化和清理的见解。以IDH1基因为例,在数据门户搜索引擎中查询“IDH1”,可以找到来自多个CF项目(如Metabolomics Workbench, LINCS, IDG, GlyGen)的C2M2文件、基因集以及指向IDH1基因页面的链接。该基因页面链接到PWB等工具,可以生成关于IDH1的综合报告,包含其在GTEx组织中的表达、LINCS扰动数据、KOMP2小鼠表型、MW代谢物关联、GlyGen糖基化位点等信息。AI助手也能回答关于IDH1的特定问题,如其在GTEx组织中的表达谱或能调节其表达的LINCS药物。
The CFDE Workbench Cloud Infrastructure
CFDE工作台的基础设施托管在亚马逊AWS云账户中。工作台的不同组件(如信息门户、数据门户、聊天机器人)由不同的Docker容器提供服务,并通过Kubernetes进行编排管理。
CONCLUSIONS AND FUTURE DIRECTIONS
CFDE工作台通过结合数据和信息门户,成为一个综合性资源,使用户能够收集CFDE和CF的资源信息与数据,并能跨协调一致的(元)数据查询疾病、基因、药物等生物实体。研究表明,该工作台有效支持了生物医学研究中的队列选择,并促进了跨程序知识发现。未来,工作台将在多个方面持续改进,例如增强AI就绪性(如通过API提供数据框)、扩展C2M2以包含患者元数据(如BMI、吸烟状况)、增加数据门户中链接的分析工具数量、将C2M2数据转换为知识图谱数据库(如Neo4j)、加强信息门户的协作与内容提交功能等。此外,工作台已开始与GEO、CPTAC、Harmonizome、UniProt等外部公共数据资源和工具实现互操作。总之,CFDE工作台是一个符合FAIR原则的资源,实现了CF数据和元数据的发现、访问与分析,并正成为推动跨CF项目FAIR数据分析和生物医学发现的重要平台。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号