知识图谱生成器(KGG):构建疾病特异性知识图谱的全自动化工作流程及其在药物重定位中的应用

【字体: 时间:2025年06月29日 来源:Bioinformatics 4.4

编辑推荐:

  本研究针对生物医学领域知识图谱构建耗时费力的问题,开发了全自动化工作流程KGG,通过整合OpenTargets、UniProt等权威数据库API,实现了疾病相关蛋白质、通路、SNP等实体的实时检索与整合。该工具成功应用于阿尔茨海默病与COVID-19共病分析、帕金森病药物重定位等场景,为系统生物学研究和药物发现提供了高效解决方案。

  

在生物医学研究领域,知识图谱(Knowledge Graphs, KGs)已成为系统生物学的重要应用工具,能够整合蛋白质、通路、遗传变异等多模态数据,揭示复杂的生物过程和病理机制。然而传统知识图谱构建高度依赖人工 curation(数据整理),存在效率低下、成本高昂等问题。尽管现有文本挖掘技术可部分自动化这一过程,但其准确性和可靠性仍无法满足研究需求。这种技术瓶颈严重制约了知识图谱在药物发现、疾病机制研究等领域的应用潜力。

针对这一挑战,来自弗劳恩霍夫转化医学与药理学研究所等机构的研究团队开发了知识图谱生成器(Knowledge Graph Generator, KGG)——一个全自动化的疾病特异性知识图谱构建工作流程。这项发表在《Bioinformatics》的研究通过创新性地整合多个权威生物数据库API,实现了高质量知识图谱的实时生成,为生物医学研究提供了高效可靠的知识整合解决方案。

研究团队采用模块化设计思路,将KGG工作流程划分为三个关键阶段:疾病标识识别、实时知识检索和知识图谱编译。技术核心在于通过Python脚本调用OpenTargets Platform(OTP)、UniProt、ChEMBL等数据库的应用程序接口(API),自动获取疾病相关的蛋白质、药物、通路等实体信息,并利用生物表达语言(Biological Expression Language, BEL)将其转化为标准化的语义三元组。特别值得注意的是,该系统支持用户自定义参数,如设置蛋白质关联分数阈值、选择药物临床试验阶段等,显著提升了知识图谱的定制化程度。

研究结果部分展示了KGG在多方面的应用价值。在COVID-19与阿尔茨海默病(AD)共病分析中,系统生成的KG分别包含25,701和21,880个实体,成功识别出1,746个共享蛋白质和2个共享SNP(包括新发现的rs11065822)。

这一发现为两种疾病的潜在关联机制研究提供了新线索。

在抑郁症KG构建案例中,KGG生成的图谱包含15,047个实体,涵盖2,429个蛋白质和108种药物。通过与文本挖掘工具Kairntech Sherpa构建的KG对比,证实KGG在实体覆盖完整性方面具有明显优势(共享462个蛋白质和60种化学物质)。

此外,研究还成功鉴定出71个抑郁症相关蛋白质的PDB结构,为靶向药物设计提供了结构基础。

帕金森病(PD)研究案例进一步凸显了KGG在药物发现中的应用潜力。系统生成的PD KG包含20,686个实体,研究者通过通路中心分析策略,从733个蛋白质中筛选出多个潜在新靶点。特别值得注意的是,研究发现囊泡单胺转运体2(SLC18A2)及其调控多巴胺释放的化合物可能具有治疗价值。

通过分析药物相似性特征,46种化合物同时满足Ghose、Lipinski等五种筛选标准,为PD药物优化提供了重要参考。

讨论部分强调,KGG的创新性主要体现在三个方面:首次实现基于实时API调用的全自动KG构建;支持多层级疾病本体映射;提供丰富的下游分析模块。尽管在"研究不足疾病"的覆盖度和蛋白质-蛋白质相互作用(PPI)整合方面存在局限,但该工作流程已显著降低了知识图谱构建的技术门槛。研究者特别指出,未来整合实验数据、文本挖掘和大型语言模型(LLMs)将进一步提升系统性能。

这项研究的意义不仅在于开发了一个高效的知识图谱构建工具,更重要的是建立了一个可扩展的FAIR(可查找、可访问、可互操作、可重用)数据整合框架。KGG的成功应用案例证明,自动化工作流程可以大幅加速从基础研究到药物发现的转化过程,特别是在突发公共卫生事件(如COVID-19疫情)应对中展现出独特价值。随着生物医学数据的持续增长,这种高效、标准化的知识整合方法将为系统生物学研究和精准医学发展提供重要技术支撑。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号