
-
生物通官微
陪你抓住生命科技
跳动的脉搏
BioGraphFusion:基于图知识嵌入的生物医学知识图谱补全与推理新方法
【字体: 大 中 小 】 时间:2025年07月21日 来源:Bioinformatics 4.4
编辑推荐:
本研究针对生物医学知识图谱(KG)补全(KGC)与推理(KGR)中语义理解与结构学习的协同难题,提出BioGraphFusion框架。通过张量分解构建全局语义基础,结合LSTM动态优化关系嵌入与查询引导子图传播,实现语义-结构的深度耦合。实验表明其在疾病基因预测(MRR 0.429)、蛋白质-化合物互作等任务中显著优于RotatE、AdaProp等基线模型,案例研究成功预测黑色素瘤(CMM1)致病基因并揭示MC1R通路机制,为生物医学发现提供新范式。
生物医学知识图谱(KG)正成为解码疾病机制与药物发现的核心工具,但现有方法面临"语义-结构割裂"的困境:知识嵌入(KE)模型如RotatE虽能捕捉全局语义,却难以建模多步路径;图神经网络(GNN)如RED-GNN擅长局部结构传播,但常忽视关系语义。更棘手的是,即便引入语言模型的混合方法,仍缺乏两者动态协同演化的能力。这种割裂严重制约了KG在预测基因-疾病关联、药物靶点等复杂生物问题中的应用价值。
浙江工业大学计算机科学与技术学院的研究团队在《Bioinformatics》发表的研究中,创新性地提出BioGraphFusion框架。该工作通过三级协同机制实现突破:首先采用规范多态(CP)分解建立全局生物语义张量,为实体关系提供低维嵌入;继而设计LSTM驱动的上下文关系细化模块,在子图传播中动态调整关系表示;最终通过混合评分函数融合语义与结构特征。这种"全局引导-动态演化-双向反馈"的架构,首次实现了知识表示与图结构学习的深度耦合。
关键技术包含:1)基于DisGeNET等多源生物数据的KG构建;2)CP分解初始化实体/关系嵌入;3)查询注意力传播机制筛选相关子图;4)N3正则化优化损失函数。实验设计涵盖疾病基因预测、蛋白质-化合物互作和UMLS医学本体推理三大任务。
全局生物张量编码验证语义优势
通过t-SNE可视化显示,完整模型蛋白嵌入呈现清晰的化合物特异性聚类

动态关系细化揭示机制创新
LSTM模块通过遗忘门/输入门调控关系语义流变,例如在CMM1案例中,"disease_gene"关系会根据上下文动态关联CDKN2D或MC1R等不同基因。消融实验显示,移除该模块(BGF-w/o CRR)会使医学本体推理MRR下降9.3%,证明其对长程依赖建模的不可替代性。
跨任务性能全面领先
如表1所示,BioGraphFusion在疾病基因预测MRR(0.429)和Hit@1(0.377)均显著优于最佳基线(P<0.001)

通路推理突破传统局限
通过注意力权重解码的"CMM1→MC1R→Mole→CDKN2D"通路

这项研究开创性地解决了生物KG领域语义与结构协同优化的核心挑战。BioGraphFusion不仅技术指标全面超越现有方法,其预测的CMM1致病基因与通路更为实验研究提供新靶点。该框架的普适性使其可扩展至药物重定位、多组学整合等领域,为AI驱动的生物医学发现树立了新标杆。
生物通微信公众号
知名企业招聘