融合知识图谱与预训练特征的深度学习新方法突破药物重定位冷启动难题
《Communications Chemistry》:A fused deep learning approach to transform drug repositioning
【字体:
大
中
小
】
时间:2025年11月08日
来源:Communications Chemistry 6.2
编辑推荐:
本研究针对药物重定位中存在的冷启动问题、多网络表征整合困难以及内在属性表征缺失等挑战,提出了一种统一知识增强的深度学习框架UKEDR。该框架创新性地融合了知识图谱嵌入、预训练策略和推荐系统,通过语义相似性驱动的嵌入方法解决冷启动问题。实验表明,UKEDR在多个基准数据集上显著优于传统机器学习、网络方法和深度学习方法,特别是在冷启动场景下对未见节点和新化合物表现出卓越的泛化能力,在临床前到临床的预测中AUC提升39.3%,为实际药物研发应用提供了有力工具。
传统药物研发过程漫长而昂贵,平均需要10-15年和5-20亿美元的投入,但成功率却不足10%。面对这一严峻挑战,药物重定位(drug repositioning)作为一种高效策略应运而生,它通过发现已有药物的新治疗用途,大幅缩短研发周期并降低风险。然而,现有计算方法在管理多样化网络表征、解决冷启动问题以及处理内在属性表征方面仍存在显著局限。
在这一背景下,来自中央大学、浙江大学等机构的研究团队在《Communications Chemistry》上发表了题为"A fused deep learning approach to transform drug repositioning"的研究论文,提出了统一知识增强的深度学习框架UKEDR,为药物重定位领域带来了突破性进展。
研究团队构建了包含2,326,366个实体、1.57亿关系的超大规模知识图谱,整合了DrugBank、DisGeNET等9类生物医学数据。采用PairRE知识图谱嵌入方法学习实体关系表示,通过对比学习框架CReSS提取药物分子特征,并基于BioBERT构建疾病专用语言模型DisBERT。最后利用注意力因子分解机(AFM)推荐算法整合多源特征进行预测,创新性地提出了语义相似性驱动的冷启动处理机制。
传统药物重定位方法通常依赖简单的点积或单层神经网络进行特征交互,难以充分捕捉药物与疾病间的复杂关系。UKEDR通过系统评估不同模块组合,发现尽管整合了知识图谱和预训练表征,但知识图谱嵌入方法的选择对最终性能影响有限,而下游推荐算法的选择成为关键因素。
注意力因子分解机(AFM)推荐系统在所有知识图谱嵌入方法中均表现最优,AUC值超过0.95,AUPR值超过0.96,显著优于PairRE_BPR和PairRE_NFM等替代方案。基于这一发现,研究选择PairRE作为知识图谱嵌入方法,AFM作为药物重定位预测的推荐系统。
研究在标准基准评估中使用了三个数据集:RepoAPP、RepoClin和RepoData,均保持1:1的正负样本比例。UKEDR在所有三个数据集上均取得最佳性能,特别是在RepoAPP上达到AUC=0.958,AUPR=0.968。
在模拟真实药物发现过程的一般冷启动场景中,UKEDR表现出卓越性能(AUC=0.950±0.007,AUPR=0.961±0.005),显著优于其他模型。与次优模型EKGDR相比,AUC提升39.3%,AUPR提升28.8%。在药物冷启动场景中,UKEDR达到AUC=0.795±0.009和AUPR=0.812±0.010;在疾病冷启动场景中,达到AUC=0.736±0.013和AUPR=0.739±0.013。
在由Luo等人提出的Cdataset基准数据集上,UKEDR表现出一致且优越的性能,AUC值在0.869-0.907之间,AUPR值在0.830-0.930之间。特别是在AUPR指标上表现出边际优势,这一指标在不平衡数据集性能评估中具有更高敏感性。
相似性矩阵分析显示,知识图谱特征生成的相似性矩阵值较低(疾病平均0.162,药物平均0.183),而预训练特征显示出显著更高的相似性值(疾病平均0.606,药物平均0.480)。两种模态之间的皮尔逊相关性接近零,表明它们提供统计独立的信息。
消融研究比较了五种变体:KGE(仅知识图谱嵌入)、PRE(仅药物和疾病预训练)、KGE_Cress(KGE结合药物预训练)、KGE_Disbert(KGE结合疾病预训练)以及完整的UKEDR模型。完整UKEDR模型达到最优性能(AUC=0.953,AUPR=0.964),证明每种特征类型都对模型理解药物-疾病关系贡献独特且有价值的信息。
预测模式的多维分析显示,知识图谱嵌入模型呈现近对称分布(均值0.340),预训练模型呈现高度右偏分布(均值0.241),而组合模型呈现中间分布特征(均值0.110)。重叠分析表明,知识图谱嵌入和组合模型在top10%预测中保持较高一致性(51.4%)。
研究还预测了新的药物-疾病治疗关联,如DB00678(Losartan)可能治疗C0020443(高胆固醇血症),这一发现已得到Tershakovec等人研究的支持。知识图谱可视化通过蛋白质相互作用和信号通路的综合网络,揭示了药物-疾病关联背后的复杂分子机制。
UKEDR模型通过创新性的双特征架构,融合基于图的关系嵌入和从分子、文本数据直接提取的强大预训练内在属性,从根本上解决了图外实体的真正冷启动问题。在最具挑战性的冷启动场景中的出色表现,以及在不平衡数据集上的强大鲁棒性,证实了UKEDR不仅是解决关键冷启动挑战的方案,更是实际药物发现的强大实用框架。
该研究的双特征架构解决了传统方法中属性表征不完整的根本限制,通过知识图谱组件编码实体间的结构化关系,预训练组件从文本描述中提取丰富的分子和疾病特征。观察到的这些特征之间的协同作用表明,全面的药物重定位需要同时理解生物网络的结构特性和分子属性的详细表征。
尽管取得了这些进展,计算药物重定位领域仍存在若干重要挑战。知识图谱的构建和维护仍然是劳动密集型过程,可能引入不一致性和生物关系的不完整表征。异质数据源的最佳整合仍然具有挑战性,特别是在捕捉不同特征类型之间的复杂非线性相互作用方面。此外,大规模知识图谱和实时更新所需的计算资源对广泛实施提出了实际挑战。这些限制突出了在自动知识图谱构建、自适应特征整合和计算效率方面持续方法学发展的必要性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号