基于多变量信息融合和图对比学习预测药物-靶点相互作用
《Journal of Biomedical Informatics》:Predicting drug-target interactions based on multivariate information fusion and graph contrast learning
【字体:
大
中
小
】
时间:2025年11月20日
来源:Journal of Biomedical Informatics 4.5
编辑推荐:
药物靶点相互作用预测模型MGCLDTI通过整合多源信息与图对比学习提升预测性能,采用DeepWalk构建异构图表示,稀疏化处理DTI矩阵,结合GCL增强局部拓扑相似性,最终利用LightGBM进行预测,实验证明其准确性优于现有方法且通过消融实验验证了各模块有效性。
药物-靶点相互作用(Drug-Target Interaction, DTI)预测在推动医学领域创新和研究中具有重要意义。随着药物研发成本的不断上升以及实验方法的局限性,传统手段在DTI预测方面逐渐暴露出效率低、成本高、周期长等问题。近年来,机器学习,尤其是深度学习技术,被广泛应用于药物发现过程中,因其在高效计算和精准预测方面表现出色。然而,现有的许多方法在处理DTI数据时,面临着节点表示学习不充分和未能有效整合节点间拓扑相似性等挑战。因此,为了提高DTI预测的准确性和可靠性,研究者们不断探索新的模型架构和技术手段。
MGCLDTI模型应运而生,旨在通过融合多源信息并利用图对比学习(Graph Contrastive Learning, GCL)技术,提升药物与靶点之间相互作用的预测性能。该模型的核心思想是通过构建异构网络并提取节点的全局拓扑表示,从而更全面地捕捉药物与靶点之间的潜在关系。同时,为了应对DTI矩阵中普遍存在的稀疏性问题,MGCLDTI引入了一种数据稠化策略,以减少噪声对模型训练的干扰。此外,模型还采用了一种带有节点掩码机制的GCL方法,进一步增强对局部结构信息的感知能力,并优化药物和靶点的嵌入表示。最后,模型通过LightGBM算法进行DTI评分预测,从而实现对药物-靶点相互作用的高效识别。
在模型构建过程中,首先通过异构网络的构建,将药物、靶点和疾病等不同类型的生物实体纳入统一的图结构中。这种异构图不仅能够反映药物与靶点之间的直接相互作用,还能体现它们在生物系统中的间接关联,例如药物与疾病之间的联系、靶点与其他生物分子之间的相互作用等。通过这种方式,模型能够更全面地捕捉药物和靶点的多维特征,为后续的预测任务奠定基础。接下来,采用DeepWalk算法对异构图中的节点进行全局拓扑表示的学习。DeepWalk是一种基于随机游走的图嵌入方法,能够从图结构中提取出具有语义意义的节点表示,从而帮助模型更好地理解药物与靶点之间的复杂关系。
在处理DTI矩阵时,模型引入了数据稠化策略,以应对原始数据中普遍存在的稀疏性问题。DTI矩阵的稀疏性通常源于生物网络中相互作用信息的缺失,这会导致模型在学习过程中无法充分捕捉到药物与靶点之间的潜在联系。因此,通过稠化处理,可以有效减少这些噪声的影响,提高模型的预测能力。具体而言,稠化策略通过对稀疏矩阵进行补全,使得模型能够在更丰富的数据基础上进行训练,从而提升预测结果的准确性。
为了进一步优化药物和靶点的表示,MGCLDTI还引入了图对比学习(GCL)技术。GCL是一种通过对比学习方法来学习节点表示的模型,其核心思想是通过最大化正样本之间的相似性,同时最小化负样本之间的相似性,从而获得更具区分性的节点嵌入。在本模型中,GCL不仅用于学习药物和靶点的全局表示,还结合了节点掩码机制,以增强模型对局部结构信息的感知能力。这种机制通过随机遮蔽部分节点,并要求模型根据剩余信息重建被遮蔽节点的表示,从而促使模型更加关注节点之间的局部关系。这种方法能够有效提升模型在处理复杂生物网络时的表现,使其能够更准确地识别潜在的药物-靶点相互作用。
在模型的最后阶段,采用LightGBM算法进行DTI评分预测。LightGBM是一种基于梯度提升决策树(Gradient Boosting Decision Tree, GBDT)的高效机器学习算法,其在处理高维数据和大规模数据集时表现出色。通过将经过GCL优化后的药物和靶点表示作为输入特征,LightGBM能够快速且准确地预测药物与靶点之间的相互作用强度。这种集成方法结合了图神经网络的结构学习能力和LightGBM的高效预测能力,从而在DTI预测任务中取得了优异的性能。
与现有方法相比,MGCLDTI在多个方面进行了创新。首先,它首次将节点拓扑相似性纳入DTI预测模型的构建中,通过融合药物、靶点和疾病等多源信息,丰富了节点的特征表示。其次,通过引入数据稠化策略,有效缓解了DTI矩阵中由于稀疏性带来的噪声干扰,从而提升了模型的鲁棒性。此外,模型在多个实验中验证了其可靠性和有效性,包括不同数据集上的性能评估、参数敏感性分析以及消融实验。这些实验结果表明,MGCLDTI在预测药物-靶点相互作用方面具有显著的优势,能够为药物研发和靶点筛选提供有力的支持。
在实验中,研究者们使用了两个广泛认可的DTI数据集:Luo的数据集和Yamanishi的数据集。这两个数据集分别涵盖了不同药物与靶点之间的相互作用信息,为模型的训练和评估提供了丰富的数据支持。通过对比实验,MGCLDTI在多个指标上均优于现有的其他方法,例如准确率、召回率和F1分数等。这表明,该模型不仅在理论上具有创新性,在实际应用中也展现出强大的预测能力。
为了进一步验证模型的有效性,研究者们还进行了多种实验,包括不同参数设置下的性能对比、不同数据预处理方式的影响分析以及不同模型结构的消融实验。这些实验的结果表明,MGCLDTI的各个组成部分在模型整体性能中起到了关键作用。例如,数据稠化策略的引入显著提高了模型在稀疏数据集上的表现,而GCL模块的优化则增强了模型对药物和靶点特征的捕捉能力。此外,LightGBM算法在DTI评分预测中的应用也证明了其在分类任务中的高效性和准确性。
在实际应用中,MGCLDTI模型能够为药物研发提供重要的支持。通过准确预测药物与靶点之间的相互作用,研究人员可以更快地筛选出具有潜在治疗价值的药物分子,减少不必要的实验成本和时间投入。同时,该模型还能够帮助识别药物的副作用,从而为药物的安全性和有效性评估提供依据。此外,在药物再定位(drug repositioning)领域,MGCLDTI同样具有重要的应用价值。药物再定位是指将已有的药物重新应用于新的适应症,这一过程通常需要大量的实验验证。而通过MGCLDTI模型,研究人员可以在较短时间内筛选出具有潜在再定位价值的药物,从而加速新疗法的开发。
总体而言,MGCLDTI模型通过融合多源信息、引入数据稠化策略以及结合图对比学习技术,显著提升了DTI预测的准确性和鲁棒性。该模型不仅在理论上具有创新性,还在实际应用中展现出广阔的发展前景。随着生物医学数据的不断积累和计算技术的持续进步,MGCLDTI有望成为药物-靶点相互作用预测领域的重要工具,为药物研发和生物医学研究提供更高效、更准确的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号