编辑推荐:
为解决药物 - 靶点结合亲和力(DTA)预测难题,研究人员开展基于深度学习的 SMFF-DTA 模型研究。结果显示该模型在多种指标上表现优异,能高效准确预测 DTA,对药物研发意义重大。
在药物研发的漫长征程中,寻找有效的药物就如同在茫茫大海里捞针。药物发现过程极为复杂,不仅耗时长久,通常需要 10 - 15 年,而且成本高昂,推出一种新药往往要花费超过 2 亿美元。在这个过程里,药物与靶点的相互作用至关重要,药物通常作为配体与靶蛋白结合发挥作用,而药物 - 靶点结合亲和力(Drug-Target Binding Affinity,DTA)则直接关系到药物的疗效,它就像一把精准的尺子,衡量着药物与靶蛋白之间的 “契合度” ,对其进行准确预测能够极大地加速药物筛选进程,推动药物的发现、设计与再利用。
早期的 DTA 预测主要依赖湿实验,虽然结果可靠准确,但过程繁琐且成本高。随着科技发展,基于物理或分子对接的预测方法出现,然而,基于物理的方法计算成本高,分子对接方法结果又不够准确。机器学习模型虽在处理低维数据上有优势,但严重依赖人工提取特征,对研究人员的专业知识要求极高。深度学习技术兴起后,基于深度学习的方法开始应用于药物研发各阶段,不过现有的基于序列或结构的方法仍存在不足,比如基于序列的方法会丢失结构信息,基于结构的方法计算复杂,且多模态信息融合困难。
为了攻克这些难题,中国大学的研究人员提出了一种全新的深度学习模型 ——SMFF-DTA(Sequential Multi-Feature Fusion Method with Multiple Attention Mechanisms,基于多序列特征和多注意力机制的顺序多特征融合方法) 。该研究成果发表在《BMC Biology》上,为药物研发领域带来了新的曙光。
研究人员在开展这项研究时,主要运用了以下几种关键技术方法:
- 多数据集实验:使用 Davis 和 KIBA 两个高质量公共数据集进行实验,其中 Davis 包含 68 种药物和 442 个靶点,共 30,056 个药物 - 靶点样本;KIBA 有 2111 种药物和 229 个靶点,形成 118,254 个样本37。
- 输入表示与特征提取:在输入表示方面,对药物和靶点的信息进行全面提取。药物输入包括简化分子线性输入规范(Simplified Molecular Linear Input Specification,SMILES) 、摩根指纹(Morgan fingerprints)和原子理化性质等特征;靶点输入涵盖氨基酸序列、二级结构和理化性质特征。同时,设计了特征编码器,利用 1D 卷积神经网络(1D Convolutional Neural Network,1D CNN)和双向门控循环单元(Bidirectional Gated Recurrent Unit,BiGRU)分别提取局部和全局特征8910。
- 多注意力机制:设计了多注意力块,通过间接获取交互权重图和直接使用多头交叉注意力机制,有效捕捉药物 - 靶点的交互特征11。
下面来看看具体的研究结果:
- 性能评估:将 SMFF-DTA 与七种最先进的方法对比,在 Davis 和 KIBA 数据集上,SMFF-DTA 均取得了更好的性能。在 Davis 数据集中,与第二好的结果相比,均方误差(Mean Squared Error,MSE)降低了 2%,Rm2提高了 1.6%,一致性指数(Concordance Index,CI)提高了 0.4%;在 KIBA 数据集中,MSE 降低了 0.5%,Rm2提高了 1.2%,CI 提高了 0.4%1。
- 消融实验:
- 多特征输入:实验表明多特征输入可提升模型性能,实现全面的输入表示很有必要。例如,仅输入药物 SMILES 和靶氨基酸序列,模型性能不如加入药物指纹和靶二级结构,再加入药物原子和靶残基的理化性质后,性能进一步提升2。
- 交互信息捕捉:对交叉注意力、交互块和多注意力块进行消融实验发现,去除任何一个交互捕捉部分都会使模型性能下降,说明直接和间接捕捉交互的方式协同作用,能有效提取交互特征4。
- 编码方法有效性:对比三种药物原子理化性质的编码方法,发现考虑原子顺序且非原子位填充前一个原子特征的方法(Method 3)性能最佳,表明这种编码方式能有效表达药物原子的理化性质5。
- 案例研究:从 PDBbind 数据库中随机选取 9 种化合物,用在 KIBA 数据集上训练的模型预测其亲和力,9 个样本中有 8 个的预测结果与 PDBbind 实验值的排名一致,证明了模型具有一定的泛化性和适用性6。
研究结论和讨论部分指出,SMFF-DTA 为药物和靶点的结构信息及理化性质提供了序列表示,创新地编码了药物原子和氨基酸残基的理化性质 。同时,该模型能直接和间接捕捉重要的交互特征,具有较高的准确性、相关性和泛化能力,是药物再利用和筛选的有效技术。不过,研究中也发现了一些问题,比如对于短蛋白序列的训练不足,这也为后续研究指明了方向,即进一步探究如何更好地处理不同长度的蛋白序列,以提高模型的通用性。总的来说,SMFF-DTA 模型的提出为药物研发领域带来了新的思路和方法,有望推动药物研发进程,让新药的诞生不再如此艰难。