基于图知识蒸馏多任务学习的生物医学知识图谱链接预测新方法GKDRMTL提升药物重定位效率
《Engineering Applications of Artificial Intelligence》:A federated learning framework for arbitrary spatio-temporal graph neural networks
【字体:
大
中
小
】
时间:2025年10月19日
来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
为解决生物医学知识图谱中多关系链接预测的计算复杂性和效率问题,研究人员开发了GKDRMTL框架,整合了GraphSAGE、多任务学习和知识蒸馏技术。该研究在扩展版HetioNet上验证了方法在药物-疾病关联等任务中的卓越性能,学生模型在保持高精度(如ROC-AUC达0.9739)的同时显著降低计算成本(训练时间减少29.86%)。这项工作为大规模生物医学图谱分析提供了高效可扩展的解决方案,对加速药物重定位和疾病机制解析具有重要意义。
随着生物医学数据的爆炸式增长,如何从海量的多关系数据中挖掘有价值的关联信息已成为药物研发和疾病治疗领域的核心挑战。生物医学知识图谱(Biomedical Knowledge Graph, BKG)整合了药物、疾病、基因、蛋白质等多种实体及其复杂关系,为系统生物学研究提供了理想平台。然而,传统的图神经网络方法在处理这种异构性强、规模庞大的图谱时面临严峻挑战:模型计算复杂度高难以实际部署,多关系预测任务间的负迁移效应严重影响性能,且现有方法大多局限于单一类型链接预测,无法充分利用图谱中丰富的语义信息。
为突破这些瓶颈,研究人员在《Engineering Applications of Artificial Intelligence》上发表了一项创新研究,提出了GKDRMTL(Graph-based Knowledge Distillation for Multi-Task Learning)框架,通过教师-学生知识蒸馏机制实现了高效的多任务链接预测。该研究使用经过扩展的HetioNet知识图谱作为基准数据集,其中整合了来自外部资源的药物-疾病关联数据,并移除了原始图谱中的药物-疾病链接以避免标签泄漏。
研究采用的关键技术方法包括:1)构建异构图形结构处理多种生物实体关系;2)采用双层GraphSAGE的教师模型进行深度特征学习;3)设计单层GraphSAGE的轻量化学生模型;4)引入基于同方差不确定性的多任务加权机制;5)实施隐藏状态对齐和软标签知识蒸馏。数据集包含45,362个节点和多种关系类型,覆盖药物-疾病关联、药物-药物相似性、疾病-疾病相似性和疾病-基因关联四大预测任务。
研究团队设计了创新的教师-学生框架。教师模型采用两层GraphSAGE架构,使用LeakyReLU激活函数和dropout正则化,能够学习丰富的节点表示。学生模型仅使用单层GraphSAGE但保留了与教师相同的任务特定预测头,通过知识蒸馏获得教师的知识传递。节点特征初始化包含128维可训练嵌入和节点类型的one-hot编码,边类型则使用可训练嵌入表示。
框架同时处理四个链接预测任务,采用同方差不确定性加权来平衡不同任务间的损失贡献。对于每个任务k,损失函数包含加权二元交叉熵和蒸馏损失项,具体表示为L_student = Σα_k·L_task^(k) + Σβ_k·L_distill^(k) + γL_HS,其中α、β、γ为权重系数,L_HS为隐藏状态匹配损失。
学生模型通过两个主要机制从教师学习:一是基于温度缩放softmax输出的KL散度蒸馏损失,二是通过投影层对齐中间隐藏状态的匹配损失。温度参数采用余弦退火策略从2.0逐渐降至1.0,确保训练初期使用较软的概率分布,后期逐渐锐化。
在分布内设置下,教师模型在四个任务上均达到近乎完美的性能:药物-疾病关联ROC-AUC为0.9889,AUPR为0.9875;药物-药物相似性ROC-AUC为0.9868;疾病-疾病相似性准确率达0.9843;疾病-基因关联F1-score为0.9709。学生模型虽然结构简化,但表现令人印象深刻:ROC-AUC为0.9739,仅比教师低1.5%,但训练时间减少29.86%,内存使用降低74.92%,GFLOPs减少13.07%,推理时间缩短46.18%。
与现有先进方法相比,GKDRMTL显著优于PT-KGNN、LAGCN、RGCN和FuseLinker等基准方法。特别是在分布外设置中,教师模型的ROC-AUC达到0.9916,展示了优秀的泛化能力。学生模型在此设置下的ROC-AUC为0.9768,大幅超过FuseLinker的0.9255,证明其良好的泛化性能。
研究还提供了模型预测的具体案例验证。例如,模型预测Calcidiol(DB00146)与感染性疾病(DOID:0050117)通过MRPS16基因介导关联,这与Charoenngam等人2021年关于维生素D在COVID-19管理中作用的研究一致。另一个预测案例中,Ceftizoxime(DB01332)与感染性疾病的关联通过Etodolac介导,得到了Richards和Heel1985年关于其抗菌效应研究的支持。
通过系统的消融实验,研究团队验证了各组件的重要性。移除教师输出知识蒸馏(WTO-KD)使药物-疾病关联任务的ROC-AUC从0.9739降至0.9265;移除隐藏状态匹配(WHSM-KD)导致疾病-基因关联性能下降;而移除不确定性加权(WUW)造成所有任务性能大幅降低,如药物-疾病关联准确率从0.9876降至0.8572,证实了该机制对防止负迁移的关键作用。
GKDRMTL框架成功实现了生物医学知识图谱链接预测的高精度与高效率的统一。教师模型提供了强大的表征学习能力,而学生模型通过知识蒸馏实现了接近教师的性能但大幅降低了计算成本。多任务学习、关系嵌入和不确定性加权的协同作用确保了模型的稳健性和泛化能力。
这项研究的重要意义在于:首先,为大规模生物医学图谱分析提供了实用的解决方案,使资源受限的环境也能进行复杂的多关系预测;其次,知识蒸馏机制的有效性验证为其他复杂图学习任务提供了借鉴;最后,模型预测的新关联为药物重定位和疾病机制研究提供了有价值的研究假设。
该方法在药物发现、疾病基因关联预测和生物医学知识发现等领域具有广泛应用前景。未来的研究方向包括扩展到动态图谱、整合多模态数据以及应用于更广泛的生物医学预测任务。GKDRMTL不仅推动了图神经网络在生物医学领域的应用发展,也为知识蒸馏在多任务图学习中的有效性提供了有力证据。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号