构建与应用人类参考图谱知识图谱:跨尺度生物医学数据整合与查询的新范式

【字体: 时间:2025年07月02日 来源:Scientific Data 5.8

编辑推荐:

  本研究针对健康成人体多尺度生物数据整合的挑战,构建了人类参考图谱知识图谱(HRA KG),涵盖71个器官的5800个解剖结构(ASs)、2268个细胞类型(CTs)和2531个生物标志物(Bs)。通过标准化术语和RDF图结构,该研究实现了跨器官的SPARQL查询,为精准医学和空间组学研究提供了核心数据基础设施。

  

在生物医学研究领域,如何整合从宏观器官到微观细胞的跨尺度数据一直是重大挑战。传统方法中,解剖学结构、细胞类型和生物标志物的描述分散在不同数据库,缺乏统一标准,导致研究人员难以进行系统性分析。随着单细胞测序和空间组学技术的发展,这种数据碎片化问题愈发突出。由美国印第安纳大学、斯坦福大学等机构组成的国际团队在《Scientific Data》发表研究,构建了人类参考图谱知识图谱(HRA KG),为多模态生物数据整合提供了创新解决方案。

研究团队采用LinkML框架构建标准化数据模型,通过13类数字对象(DOs)整合解剖结构表(ASCT+B)、三维参考器官模型(ref-organ)等异构数据。关键技术包括:(1)基于CCF Ontology的语义建模;(2)使用SPARQL端点实现171亿条关系的跨尺度查询;(3)通过亚马逊云服务实现125GB知识图谱的5星级关联开放数据(LOD)部署。样本数据来自HuBMAP、SenNet等25个国际联盟的703个标准化数据集。

HRA KG的构建与部署
通过自动化流程将Google表格、GLB三维模型等原始数据转化为RDF图,建立ASs与Uberon、CTs与CL ontology的映射关系。v2.2版本包含1010万节点,支持从器官到单细胞的多层次查询。

跨尺度数据整合
创新性地将2D功能组织单元(FTUs)与3D空间参考系统关联,例如肾脏皮质细胞(CL_0002681)与肾脏皮质(UBERON_0001225)的part_of关系通过OWL公理形式化表达,解决了传统解剖图谱无法关联分子特征的问题。

生物医学应用验证
在肾脏精准医学项目(KPMP)中,HRA KG成功整合临床病理与单细胞RNA-seq数据,识别出急性肾损伤(AKI)特异性细胞状态。抗体组(OMAPs)模块将实验抗体与HGNC基因标准关联,使抗体验证效率提升40%。

该研究首次实现了全人体尺度知识图谱的构建与应用,其核心突破在于:(1)建立解剖学实体与30种生物医学本体的动态链接;(2)开发支持自然语言查询的LLM-RAG接口;(3)通过VR器官画廊实现三维空间数据探索。相比Petagraph、UBKG等现有知识图谱,HRA KG在解剖学覆盖深度(新增162个Uberon术语)和细胞分辨率(校正221个临时CT标签)方面具有显著优势。

讨论部分强调,尽管当前版本存在构建耗时(13小时/次)和部分临时术语等问题,但通过持续优化并行计算和机器学习标注,未来可扩展至疾病状态建模。这项研究为《自然-方法学》提出的"人类生物分子图谱计划"提供了关键基础设施,其开放式设计支持全球研究者共同完善人类细胞图谱的语义框架。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号