
-
生物通官微
陪你抓住生命科技
跳动的脉搏
结合结合位点信息的双模态特征融合神经网络用于药物靶点亲和力预测
【字体: 大 中 小 】 时间:2025年02月05日 来源:npj Digital Medicine 12.4
编辑推荐:
药物研发是一个复杂且耗时耗力的过程,从靶点识别、先导化合物筛选到临床前和临床试验,往往需要耗费大量的时间和资金。据统计,一种新药从最初的构想到上市,通常需要 10 - 15 年的时间,成本高达 4 - 8 亿美元。药物与靶点之间的亲和力对药物的药效和药代动力学性质起着决定性作用,因此,准确预测药物 - 靶点亲和力成为加速药物研发进程、降低研发成本的关键环节。
在药物研发领域,准确预测药物与靶点之间的亲和力是一项极具挑战性但又至关重要的任务。北京大学深圳研究生院化学生物学与生物技术学院化学肿瘤基因组学国家重点实验室、中山大学智能系统工程学院人工智能医学研究中心等单位的研究人员 Haohuai He、Guanxing Chen 等人,在 npj Digital Medicine 期刊上发表了题为 “Dual modality feature fused neural network integrating binding site information for drug target affinity prediction” 的论文。这一研究成果为药物研发提供了新的思路和方法,具有重要的理论意义和实际应用价值。
药物研发是一个复杂且耗时耗力的过程,从靶点识别、先导化合物筛选到临床前和临床试验,往往需要耗费大量的时间和资金。据统计,一种新药从最初的构想到上市,通常需要 10 - 15 年的时间,成本高达 4 - 8 亿美元。药物与靶点之间的亲和力对药物的药效和药代动力学性质起着决定性作用,因此,准确预测药物 - 靶点亲和力成为加速药物研发进程、降低研发成本的关键环节。
传统的实验方法在测量药物 - 靶点结合亲和力时存在诸多局限性,如劳动强度大、通量低,且难以应用于新型候选药物的研究。在计算方法中,分子对接虽然被广泛用于预测药物与靶点的结合模式和相互作用强度,但由于其计算复杂度较高,在大规模筛选场景中的应用受到限制。随着人工智能技术的飞速发展,其在生物医学领域展现出巨大的应用潜力,众多研究人员尝试运用人工智能方法构建模型,以实现对药物 - 靶点亲和力的高精度、快速预测。
当前的药物 - 靶点亲和力(DTA)预测方法主要分为三类。基于纯序列的方法直接从药物的简化分子输入线输入系统(SMILES)字符串和蛋白质靶点的氨基酸序列中提取特征信息,这类方法虽然在一定程度上实现了预测功能,但完全忽略了药物和靶点的结构信息,如药物分子原子的键信息、蛋白质的残基折叠和接触信息等。基于图的 DTA 预测方法则不同程度地考虑了蛋白质和药物的结构信息,然而,该类方法仅从氨基酸序列中提取蛋白质靶点信息,忽视了药物和蛋白质之间的相互作用问题。并且,由于蛋白质中的残基数远远超过药物分子中的原子数,导致蛋白质和药物图的大小存在差异,影响了预测的准确性。此外,之前的方法都没有充分融合序列和结构模态信息,无法全面利用药物和靶点的特征进行建模。而广泛应用于融合两种信息的图 Transformer 方法,也并不适用于 DTA 预测任务。
研究人员将靶点的氨基酸序列和药物的 SMILES 字符串作为模型的初始输入。通过特定的分词器,将这些文本分别拆分为靶点和药物的标记集。在图级表示方面,利用 RDKit 库构建药物分子图,通过从 GeneCards 数据库获取靶点对应的 Uniprot ID,再借助 AF2 数据库查询蛋白质结构,结合 Uniprot 数据库中的结合位点信息,经过一系列处理构建出靶点图。
该模块首先利用嵌入层和全连接层对药物和靶点的标记集进行处理,得到嵌入表示。接着,通过 Group Enhance Module(GEM)进行组间特征增强,再运用双向长短期记忆网络(BiLSTM)实现双向顺序交互和特征提取。为了有效建模药物和靶点表示之间的相互作用,研究人员提出了多头链接注意力机制,并在多头链接注意力层之后,应用逐点前馈网络进一步丰富特征表示。
通过数据检索和构建获取靶点图和药物分子图后,研究人员引入虚拟节点连接这两个图,构建融合图。考虑到靶点和药物在本质上属于不同层次的对象,其节点特征不一致,因此利用序列模态特征提取模块为两个图赋予高维同源节点特征,并采用热身策略和为节点赋予源类型特征等方法,使模型更有效地学习。融合图经过多层图神经网络(MGNN)学习层次表示,MGNN 由堆叠的图同构网络卷积(GINConv)层组成。
将图表示和基于序列的表示进行连接,实现顺序和图结构特征的整合。整合后的表示输入到融合前馈网络中,以预测药物 - 靶点结合亲和力。
研究人员使用 Python 中的 Pytorch、PyG 和 RDKit 等库实现模型。采用均方误差损失(MSELoss)作为损失函数,使用 Adam 优化器进行参数优化。在实验中,采用 5 折交叉验证策略,将数据集划分为训练集、验证集和测试集,比例为 7:1:2 ,并使用 Davis 和 KIBA 这两个广泛应用的数据集以及均方误差(MSE)、一致性指数(CI)和平均回归系数()这三个指标来评估模型性能。
研究人员将 DMFF-DTA 与 DeepDTA、GraphDTA 等多种经典和前沿的 DTA 预测方法进行比较。在 Davis 和 KIBA 数据集上的实验结果表明,DMFF-DTA 在所有评估指标上均优于其他方法。在 Davis 数据集上,与表现第二好的 FusionDTA 相比,DMFF-DTA 将均方误差降低了 3.6%,一致性指数提高了 0.3%,并获得了最高的值 0.702。在 KIBA 数据集上,DMFF-DTA 同样表现出色,均方误差降低了 3.4%,一致性指数提高了 0.5%,达到了新的最优值 0.773。这些结果充分证明了 DMFF-DTA 通过有效利用药物 - 靶点的序列和结构信息,能够实现更准确的 DTA 预测。
研究人员对 DMFF-DTA 中使用 AF2 和数据检索构建蛋白质结合位点图的方法进行了性能和计算成本的比较实验。结果显示,随着设定的结合范围增加,模型的训练时间和内存开销会相应增加,但当结合范围超过 300 时,均方误差保持相对稳定。这表明缩小结合范围可以使模型专注于药物与靶点结合位点之间的关联,实现更平衡的信息融合。与其他前沿模型相比,DMFF-DTA 在保持合理运行时间和 GPU 内存消耗的同时,实现了最低的均方误差。此外,通过实验验证,基于 AF2 生成的接触图比之前使用的 Pconsc4 和 ESM 方法具有更高的精度,能够使模型获取更准确的蛋白质结构信息,从而更好地构建靶点图。
为了评估模型在实际药物发现中的泛化能力,研究人员设计了未见药物、未见靶点和完全未见三种场景的实验。在 Davis 和 KIBA 基准数据集上,将 DMFF-DTA 与其他 5 种前沿方法进行比较。结果表明,在所有场景下,DMFF-DTA 均表现出优于对比方法的性能。在未见药物场景中,与第二好的方法相比,DMFF-DTA 在平均均方误差、一致性指数和上分别提高了 7.2% 和 4.4%;在未见靶点场景中,平均增益分别达到 8.5% 和 9.0%;在最具挑战性的完全未见场景中,平均均方误差、一致性指数和显著提升 10.0% 和 9.2%。统计分析也证明了 DMFF-DTA 在大多数场景下性能提升的显著性。这表明 DMFF-DTA 能够对未见药物和靶点构建更准确的相互作用和靶点结构表示,具有很强的泛化能力,在实际药物发现应用中具有巨大潜力。
研究人员通过对 DMFF-DTA 模型进行消融实验,验证了模型中各个组件对准确预测药物 - 靶点亲和力的贡献。实验分别测试了去除 GEM、LinkAttention 模块、整个模块、整个模块以及 Virtual Node、Source feature、Warm Up 策略等组件后的模型性能。结果显示,完整的模型在所有指标上表现最佳。去除整个模块导致模型性能大幅下降,表明该模块对提取有意义的节点特征至关重要。此外,去除模块、LinkAttention 模块、虚拟节点和热身策略等也会使模型性能明显下降。这充分证明了模型中每个组件都对其 DTA 预测能力有积极贡献,验证了 DMFF-DTA 组件设计的合理性和有效性。
理解计算模型的决策过程对于药物发现至关重要,可解释性能够验证预测的生物学相关性。研究人员对模型的注意力机制进行了分析,通过对 Davis 和 KIBA 数据集上蛋白质序列在结合位点、结合范围和外部区域的注意力权重进行综合统计分析,发现模型对结合位点和范围内的区域给予了更高的注意力值,且能够有效区分相关和不相关区域。对个别案例的可视化分析进一步直观展示了模型的可解释性,如对 4G5J、4XEY 和 6VNK 这三个 PDB 复合物的分析,发现模型关注的药物分子区域与已知的结合位点和相互作用相符。这种基于注意力的可解释性与药物 - 靶点复合物的结构分析相结合,为理解模型的预测能力提供了全面的视角,增强了对模型预测可靠性的信心。
胰腺癌是一种预后较差、治疗选择有限的恶性肿瘤,急需新的治疗策略。研究人员利用 DMFF 模型进行胰腺癌药物再利用的研究。通过从 KEGG 数据库检索胰腺癌相关通路信息,从 ChEMBL 数据库收集药物亲和力数据,对相关靶点和药物进行分析。然后,使用这些胰腺癌靶点数据对预训练的 DMFF 模型进行微调,并用于预测 2509 种 FDA 批准药物与相关靶点的结合亲和力。与其他前沿 DTA 模型相比,DMFF 在该胰腺癌数据集上表现出更高的预测准确性,获得了最低的均方误差、最高的一致性指数和值。最终,确定了 Noscapine 和 Methotrimeprazine 等有潜力的药物再利用候选药物,并对其进行了详细的理化性质分析和分子对接验证。这一案例研究充分展示了 DMFF-DTA 在药物再利用研究中的实用性,能够有效加速药物筛选过程。
研究人员提出的 DMFF-DTA 是一种双模态神经网络模型,通过创新的特征提取和融合模块,有效整合了药物和蛋白质的序列和图结构信息。针对药物和蛋白质图不平衡的问题,引入了基于 AF2 结构预测和数据检索的结合位点聚焦图构建方法,实现了更平衡、高效的药物 - 蛋白质相互作用建模。
实验结果表明,DMFF-DTA 在两个基准数据集上的性能优于先前的前沿方法,在未见药物和靶点上表现出出色的泛化能力。全面的可解释性分析和胰腺癌药物再利用的案例研究进一步展示了该模型的实际适用性,其可解释性分析增强了对模型预测的信心,确保了决策过程与生物学相关性的一致性。
该研究为推进计算药物发现做出了重要贡献,DMFF-DTA 模型为更准确、快速的虚拟筛选、候选药物优化和药物再利用提供了强大且可解释的方法。模型中引入的虚拟节点不仅连接了药物和蛋白质图,还增强了模型的可解释性,为理解药物 - 靶点相互作用提供了新的视角。然而,研究也指出,DMFF-DTA 模型在预测具有新的或未注释结合位点的抑制剂的药物 - 靶点亲和力时可能存在局限性,未来需要开发更全面、准确的方法来获取结合位点信息,以提高模型对各种相互作用的适应性。此外,药物再利用决策不能仅基于亲和力预测,还需要综合考虑多个因素,未来应开发更全面的计算框架,将亲和力预测与其他关键因素相结合,以更全面地评估药物再利用的潜力。
总体而言,DMFF-DTA 模型在药物发现领域展现出巨大的潜力,为药物研发提供了一种高效、可靠的工具,有望加速药物研发进程,推动生物医药领域的发展。
生物通微信公众号
知名企业招聘