基于元路径与互信息的图卷积网络在药物-靶点相互作用预测中的创新研究
《BMC Bioinformatics》:Graph convolution network based on meta-paths and mutual information for drug-target interaction prediction
【字体:
大
中
小
】
时间:2025年11月09日
来源:BMC Bioinformatics 3.3
编辑推荐:
本研究针对药物-靶点相互作用预测中存在的网络稀疏性和特征关系表征不足等挑战,提出了一种融合元路径和互信息的图卷积网络模型GCNMM。该研究通过构建基于元路径的融合DTI网络、结合空间拓扑一致性和互信息最大化双重优化目标,显著提升了DTI预测性能。实验结果表明GCNMM在AUC、AUPR等关键指标上均优于现有基线模型,为药物重定位提供了新的计算工具。
在药物研发领域,寻找新的药物-靶点相互作用(DTI)犹如大海捞针。传统的实验方法不仅耗时耗资,而且失败率极高。随着生物医学大数据时代的到来,计算预测方法为加速药物发现进程带来了曙光。然而,现有计算方法仍面临严峻挑战:已知的DTI数据极为稀疏,大量潜在的相互作用尚未被发现;同时,如何从复杂的生物异构网络中有效提取特征关系也是一个亟待解决的难题。
针对这些挑战,曹淑娟等研究人员在《BMC Bioinformatics》上发表了一项创新性研究,提出了一种基于元路径和互信息的图卷积网络模型GCNMM。该模型通过巧妙整合多源生物信息,在DTI预测任务上取得了突破性进展。
研究人员采用了几项关键技术方法:首先,他们构建了包含药物、靶点、疾病和副作用四类节点的异构网络,基于九种不同的元路径(如DT、DDT、DIT等)生成间接DTI网络,并通过图注意力网络(GAT)进行融合,有效缓解了原始DTI网络的稀疏性问题。其次,他们结合了Jaccard相似性和信息熵融合方法,构建了药物和靶点的综合相似性网络。最后,在图形卷积自编码器的基础上,引入了空间拓扑一致性和互信息最大化双重优化目标,确保嵌入空间能够更好地保留原始网络的结构信息。
研究团队基于异构网络中的语义关系,设计了九种不同的元路径来描述药物与靶点之间的复杂关联。这些元路径不仅包括直接的DT关系,还涵盖了通过共同疾病(D-I-T)、相似药物(D-D-T)等间接连接方式。通过图注意力网络对不同的元路径网络进行智能融合,生成更加丰富的DTI信息。
研究团队从多个维度计算相似性:基于RDKit生成的Morgan指纹计算药物化学相似性,使用Smith-Waterman算法计算靶点序列相似性,同时利用Jaccard系数从相互作用网络中提取拓扑相似性。通过信息熵加权融合方法,构建了更加全面的药物和靶点相似性网络。
GCNMM采用图卷积自编码器架构学习节点的低维特征表示。编码器部分通过两层图卷积操作将高维网络数据映射到潜在空间,解码器部分则通过特征向量的内积运算重构原始网络。该过程使模型能够捕获网络中的深层特征关系。
研究引入了空间拓扑一致性(STC)约束,确保节点在嵌入空间中保持与原始空间相似的邻近关系。同时,通过全局、局部和先验三个层面的互信息估计,强化了输入网络与学习特征之间的统计依赖性。这些优化策略共同提升了模型的表征能力。
研究团队在Luo's dataset和Li's dataset两个异构生物数据集上进行了全面评估。五折交叉验证结果表明,GCNMM在AUC(曲线下面积)、AUPR(精确率-召回率曲线下面积)等关键指标上均显著优于GADTI、VGAEDTI、SDGAE等基线模型。特别是在Li's dataset上,GCNMM的AUC值达到0.960,比最佳基线模型提升了3.78%。
为了验证各模块的贡献,研究团队进行了系统的消融实验。结果显示,移除元路径融合模块(GCNMM w./o. Meta)导致AUC下降2.92%-3.99%,AUPR下降16.89%-18.74%;移除空间拓扑一致性(GCNMM w./o. STC)使AUC下降0.82%-1.25%,AUPR下降13.25%-13.8%;移除互信息估计(GCNMM w./o. MI)则导致AUC下降0.83%-1.02%,AUPR下降8.16%-10.54%。这些结果充分证明了各组件对模型性能的重要贡献。
研究人员选择Methysergide(DB00247)、Epinephrine(DB00668)两种药物和SLC6A4(P31645)靶点进行案例验证。预测结果显示,Methysergide的15个预测靶点中有14个得到证实,Epinephrine的15个预测靶点中有12个得到确认。分子对接分析进一步验证了预测结果的可靠性,Methysergide与预测靶点的对接能量中位数为-8.45,C-score中位数为0.755,与已知靶点的结合特征高度一致。
GCNMM模型的创新之处在于将元路径、相似性网络与基于空间拓扑一致性和互信息的双重优化有机整合,有效解决了DTI预测中的网络稀疏性和特征表征不足问题。该研究不仅提供了一种高效的DTI预测工具,更为复杂生物网络的分析提供了新的思路。未来工作中,结合药物和靶点的三维结构信息,有望进一步提升模型性能,为药物重定位和发现提供更加可靠的计算支持。
研究的成功实施得益于多个机构的协作,包括天津工业大学、西安邮电大学、密歇根州立大学和萨斯喀彻温大学。这种跨学科、跨机构的合作模式,充分体现了现代生物信息学研究的团队协作特点,也为解决复杂的生物医学问题提供了有效途径。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号