多模态心血管疾病视觉知识图谱:整合影像表型与生物数据库以揭示基因-疾病关联与药物重定位

《Nature Cardiovascular Research》:A multimodal vision knowledge graph of cardiovascular disease

【字体: 时间:2025年12月30日 来源:Nature Cardiovascular Research 10.8

编辑推荐:

  本研究构建了CardioKG,一个整合了20余万例影像表型与18个生物数据库的多模态知识图谱,利用变分图自编码器(VGAE)生成节点嵌入,成功预测了心力衰竭(HF)、房颤(AF)和心肌梗死(MI)的基因-疾病关联及药物重定位策略。研究证实,甲氨蝶呤(methotrexate)与HF患者生存率改善相关,且影像数据的加入显著增强了通路富集分析能力,为利用生物医学影像增强图结构模型以识别可治疗疾病机制提供了有力支持。

  
论文解读
在精准医学时代,理解基因与疾病之间的复杂关联是揭示病理机制和发现潜在治疗靶点的关键。知识图谱(Knowledge Graph, KG)作为一种强大的工具,能够系统性地整合来自基因组学、转录组学、蛋白质组学、分子功能、细胞通路、表型、治疗药物和环境暴露等多维度的生物医学数据,从而构建一个全面反映疾病生物学的语义网络。然而,现有的知识图谱通常缺乏个体层面的表型信息,特别是能够直接反映靶器官(如心脏)结构和功能的定量数据。这种“表型鸿沟”限制了知识图谱在预测基因-疾病关联和药物重定位方面的准确性和生物学意义。
为了弥合这一鸿沟,来自英国帝国理工学院MRC医学科学实验室、国家心肺研究所、拜耳制药研发部等机构的研究团队,在《Nature Cardiovascular Research》上发表了题为“A multimodal vision knowledge graph of cardiovascular disease”的研究论文。该研究开发了一个名为CardioKG的多模态视觉知识图谱,首次将超过20万例由计算机视觉分析得出的心血管影像表型与18个生物数据库的数据进行整合,构建了一个包含超过100万条关系的知识图谱。通过应用一种能够保持节点和关系方向性的变分图自编码器(Variational Graph Auto-Encoder, VGAE)模型,研究人员不仅成功预测了心血管疾病的基因关联,还评估了靶点的成药性,并识别了药物重定位策略。研究结果表明,该模型预测的候选疗法(如甲氨蝶呤用于心力衰竭)与患者生存率的改善相关,且影像数据的加入显著增强了通路发现的深度和广度。
关键技术方法
本研究主要基于英国生物样本库(UK Biobank)的队列数据,纳入了9,584名参与者(包括4,280名患有房颤、心力衰竭、心肌梗死、肥厚型心肌病或扩张型心肌病的患者,以及5,304名健康对照)。研究团队首先利用全卷积神经网络对心脏磁共振(CMR)图像进行分割,提取了21个反映心室、心房和主动脉动态结构与功能的影像表型。随后,他们整合了来自18个生物数据库(如DisGeNET、DrugBank、GO、HPO等)的数据,构建了包含33,277个节点和1,195,437条关系的CardioKG知识图谱。图谱中的节点涵盖了基因、疾病、药物、分子通路、解剖区域以及影像表型等实体。为了从图谱中学习低维表示,研究人员开发了一种基于有向变分图自编码器(Directed Variational Graph Auto-Encoder, DVGAE)的嵌入算法,该算法能够保留节点和关系的属性以及方向性。最后,利用生成的节点嵌入,研究团队训练了支持向量机(SVM)等机器学习分类器,用于预测基因-疾病关联和药物-疾病关联,并通过通路富集分析、成药性评估和生存分析对预测结果进行了验证。
研究结果
1. 预测基因-疾病关联
研究团队利用支持向量机(SVM)模型对基因-疾病关联进行预测,该模型在预测心力衰竭(HF)、房颤(AF)和心肌梗死(MI)的基因关联时,均表现出良好的性能,其曲线下面积(AUC-ROC)分别为0.80、0.78和0.83。对预测出的前10个基因进行通路富集分析发现,这些基因显著富集于与疾病相关的关键通路中。例如,在HF中,预测基因(如GATA2、EGR1、EP300)富集于血管生成和MAPK级联等通路;在AF中,预测基因(如SRC、GATA1、HSPA8)富集于心脏传导、缺氧反应和免疫系统调节等通路;在MI中,预测基因(如PCNA、HTT、SNCA)富集于细胞凋亡和应激反应等通路。值得注意的是,当知识图谱中不包含影像特征时,识别出的相关通路数量显著减少,这凸显了影像数据在揭示复杂生物学机制中的关键作用。
2. 成药性分析
利用DGIdb数据库对预测出的前10个基因进行成药性评估,研究人员发现,在HF、AF和MI中,分别有5个、7个和2个基因被鉴定为“可成药”靶点。这些基因可以被现有的48种(HF)、37种(AF)和4种(MI)药物所靶向。例如,针对HF,预测出的APP基因可以被单克隆抗体ponezumab和bapinezumab靶向;针对AF,预测出的SRC基因可以被格列汀类药物(gliptins)靶向;针对MI,预测出的SNCA基因可以被凋亡诱导剂eltanexor和selinexor靶向。与包含影像特征的知识图谱相比,不含影像特征的知识图谱识别出的可成药基因数量更少,进一步证明了影像数据在发现潜在治疗靶点方面的价值。
3. 影像衍生表型的重要性
通过PageRank算法评估图谱中节点的中心性,研究发现,心脏磁共振(CMR)实体具有最高的PageRank得分(51.09-51.60),表明影像数据在图谱结构中处于核心位置,并与其他节点类型具有高度的连接密度。其中,左心室射血分数(LVEF)是排名最高的影像特征。消融实验进一步证实,从图谱中移除CMR节点会导致SVM模型的预测性能下降,并且识别出的相关通路数量显著减少。这表明,影像节点作为连接解剖特征与遗传、疾病层面数据的中间桥梁,对于模型捕捉间接关联和揭示疾病相关通路至关重要。
4. 药物重定位
基于知识图谱的机器学习模型识别出了多种现有药物与心血管疾病之间的潜在关联。在HF中,排名前十的候选药物包括甲氨蝶呤(methotrexate)、托吡酯(topiramate)和雷诺嗪(ranolazine)。通路富集分析显示,甲氨蝶呤的靶点DHFR与氧化应激反应的调节有关,而托吡酯的靶点(SCN5A、SCN10A、CACNA1C、CACNA1D)则与心肌细胞收缩和动作电位调节等关键HF通路显著相关。生存分析结果表明,在同时患有HF和类风湿关节炎(RA)的患者中,使用甲氨蝶呤治疗的患者比使用羟氯喹(hydroxychloroquine)或柳氮磺吡啶(sulfasalazine)的患者具有更高的生存概率(风险比HR=0.65, 95% CI 0.48-0.89, P<0.01)。这一发现在BioVU生物样本库的独立验证队列中得到了进一步支持(HR=0.71, 95% CI 0.5-0.99, P<0.05)。此外,针对AF和MI的预测也识别出了具有生物学合理性的候选药物,如用于AF的唑尼沙胺(zonisamide)和用于MI的伏立诺他(vorinostat)。
研究结论与意义
本研究构建的CardioKG知识图谱,通过整合个体层面的心血管影像表型与多组学生物数据,为心血管疾病的机制研究和治疗发现提供了一个强大的多模态框架。研究证明,影像衍生表型作为“内表型”,能够显著增强知识图谱的结构和功能复杂性,从而更准确地预测基因-疾病关联,并识别出更多与疾病相关的关键通路和可成药靶点。更重要的是,该模型成功预测了甲氨蝶呤等药物在HF治疗中的潜在益处,并通过生存分析在独立队列中得到了验证,为药物重定位提供了强有力的证据。
这项研究的意义在于,它展示了生物医学影像在增强图结构疾病模型中的巨大潜力。通过将定量的器官表型与分子生物学知识相连接,CardioKG不仅为发现心血管疾病的可治疗机制提供了新途径,也为更广泛的医学领域利用影像数据构建精准、可解释的疾病模型树立了典范。未来,随着更大规模、更多样化人群数据的加入,这种基于视觉知识图谱的方法有望在个性化诊断策略和药物开发中发挥越来越重要的作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号