《Journal of Molecular Graphics and Modelling》:RLBindDeep: A ResNet-LSTM based novel framework for protein–ligand binding affinity prediction
编辑推荐:
蛋白质-配体结合亲和力预测深度学习模型RLBindDeep融合ResNet与LSTM架构,通过整合分子物理化学特征、蛋白质序列特征及详细相互作用特征,在CASF-2016等数据集上实现R=0.875,显著优于传统方法和现有深度学习模型。
埃卡尔斯·洛德(Ekarsi Lodh)| 莎莉尼·马朱姆德(Shalini Majumder)| 塔潘·乔杜里(Tapan Chowdhury)| 马纳希·德(Manashi De)
计算机科学与工程系,Techno Main Salt Lake,EM-4/1,第五区,Salt Lake,加尔各答,700091,西孟加拉邦,印度
摘要 在计算药物发现中,高精度预测蛋白质和配体的结合亲和力对于评估潜在治疗化合物的有效性至关重要。本研究提出了RLBindDeep,这是一种基于ResNet和LSTM架构融合的新型深度学习架构,旨在提高蛋白质-配体结合亲和力预测的准确性。大多数使用传统分子对接技术的传统方法由于半柔性建模方法和对复杂相互作用考虑不足而准确性较低。相比之下,RLBindDeep作为一种与姿态无关的结合亲和力回归模型,可以直接从固定的复合物结构预测实验得到的蛋白质-配体结合亲和力,无需进行对接或重新评分多个姿态,在提取蛋白质-配体相互作用的重要特征方面表现良好。具体而言,提取的特征包括配体的物理化学描述符(如分子量、LogP、TPSA)、蛋白质级别的特征(如氨基酸组成)以及详细的相互作用特征(包括范德华力、静电力和氢键能量)。该模型已在CASF-2016基准数据集上进行了严格测试,取得了皮尔逊系数 R = 0.875 、斯皮尔曼系数 和均方根误差 RMSE = 0.993 。这显著优于现有的最先进模型,如HAC-Net和AutoDock Vina。RLBindDeep在准确性和鲁棒性方面的提升进一步表明,深度学习有可能彻底改变计算药物发现过程,使药物开发策略更加高效和有针对性。
引言 蛋白质是重要的生物分子,在所有可能的生物事件中发挥着重要作用,并决定了其他生物分子在生物体内的命运[1]。它们参与各种生命功能,从反应催化、运输和内分泌功能到成为身体组织的组成部分。这些功能在很大程度上取决于蛋白质的分子相互作用。预测蛋白质与其相互作用配体的结合亲和力是揭示计算设计药物效率的关键一步[2]。蛋白质-配体结合亲和力是指配体与蛋白质相互作用的能力,这种能力可以通过解离常数(K d )或结合自由能(Δ )来衡量[3],[4]。换句话说,蛋白质-配体结合亲和力指的是配体分子与蛋白质分子之间相互作用的强度。在分子支架的角度来看,高结合亲和力是非常理想的,因为化合物可以在低浓度下与目标结合,从而最小化脱靶活性。传统分子对接技术的主要问题是准确性低且可预测性差,这主要是由于半柔性建模和对蛋白质与配体之间复杂相互作用的考虑不足[2],[5]。因此,机器学习(ML)方法被作为一种强有力的替代方案,通过改进的非线性建模技术来提高预测的准确性。
作为ML算法的最先进扩展,深度学习(DL)模型通过从大量非结构化数据中提取详细特征并比较和识别模式来为对接预测奠定基础[6]。它是人工神经网络(ANN)的多层衍生和机器学习(ML)的结合,类似于人脑中的复杂神经机制和连接[7]。随着最近的进展,目前有许多DL模型可用于对接预测[8],[9],[10],[11],[12],[13],[14],[15],[16],[17],[18],[19],[20],[21],[22],[23]。现有的深度学习模型存在一些关键限制:基于CNN的方法(例如KDEEP [8]、DeepAtom [18])受到刚性对接姿态错误的影响,而基于注意力的方法(例如ResAtom [21])忽略了蛋白质序列和序列基序,像FAST [10]和BAPA [11]这样的模型在处理氨基酸计数时不考虑序列顺序,从而忽略了长距离依赖性。这些当前模型的架构限制使得它们无法捕捉蛋白质-配体相互作用的空间、结构和序列依赖性。
为了解决这些问题,我们提出了RLBindDeep,这是一种改进的深度学习(DL)框架,结合了残差网络(ResNet)[24]和长短期记忆(LSTM)[25]。残差网络用于学习从蛋白质、配体及其相互作用中提取的化学相关特征数据中的复杂模式,从而增强了结构表示。LSTM用于捕捉蛋白质序列的长距离序列依赖性,确保对分子相互作用的更全面表征。它的目标是提高蛋白质-配体结合亲和力的预测准确性。与传统的基于对接的评分函数不同,后者评估和排名多个采样姿态,RLBindDeep被设计为一个与姿态无关的监督回归模型,它直接从实验解析的蛋白质-配体复合物中预测蛋白质-配体结合亲和力,利用内在的结构和物理化学依赖性来驱动亲和力,代表了基于数据的结合亲和力预测范式。RLBindDeep提供了一个全面的药物发现工具,通过结合数值特征、指纹特征和氨基酸计数,并利用ResNet的特征提取能力和LSTM捕捉序列模式的能力,在早期阶段简化了先导化合物的识别和优化过程。
本研究的贡献如下:
i. 本研究提出了一种新的深度学习框架RLBindDeep,该框架结合了ResNet和LSTM架构,以提高蛋白质-配体结合亲和力预测的准确性。这种方法有效地捕捉了蛋白质-配体相互作用中的空间和序列依赖性,从而提高了结合亲和力的预测效果。
ii. 我们设计了一种独特且专门为满足RLBindDeep模型输入要求而定制的特征提取方法,整合了蛋白质、配体和相互作用特征以生成特征提取数据集。然后通过流程将其进一步分类为numerical_features、ligand_fingerprint、amino_acid_counts和protein_sequence,以符合RLBindDeep的ResNet和LSTM模块的输入要求,确保有效利用蛋白质-配体相互作用的空间和序列依赖性。
iii. RLBindDeep模型的性能已在CASF-2016、CASF-2013和CSAR NRC-HiQ set 1数据集上进行了适当的基准测试和比较,取得了皮尔逊相关系数 R = 0.875,超过了现有的最先进模型,如HAC-Net和AutoDock Vina。
iv. 通过系统的消融研究,评估了不同特征和模型组件对预测准确性的影响,验证了它们在实现高预测准确性方面的相对重要性。
在计算亲和力建模的更广泛领域中,RLBindDeep被定位为一个与姿态无关的框架,可以直接从固定的蛋白质-配体复合物结构预测蛋白质-配体结合亲和力。该模型不评估或排名替代的结合姿态,而是专注于从实验解析的复合物中学习结合强度的内在结构和物理化学决定因素,从而补充了传统的基于对接的方法,而不依赖于姿态采样或对接时间评分。
本文的其余部分组织如下:第2节重点介绍文献综述。第3节描述了我们提出的RLBindDeep框架的方法论。第4节介绍了模型的评估结果及其与最先进技术的比较。第5节讨论了主要发现、局限性和挑战。第6节对本文进行了总结。
章节片段 文献综述 在计算辅助药物发现和多靶点疗法的识别中[26],预测蛋白质-蛋白质或蛋白质-配体相互作用的结合亲和力变得至关重要[27]。大多数传统使用的分子对接工具旨在找到配体可以与其目标结合位点在所有不同构象中对接的所有可能姿态。评分函数(SF)定义了每个此类姿态的结合亲和力[2]。然而,半灵活性
提出的方法 近年来,由于深度学习模型在从原始数据中提取特征和理解功能模式方面的先进能力,它们在生物信息学中变得非常流行。在这项研究中,我们提出了RLBindDeep,这是一个深度学习框架,它结合了残差网络(ResNet)和长短期记忆(LSTM)架构,通过将其建模为回归任务来提高蛋白质-配体结合亲和力的预测[2]。
数据集描述 对于我们的研究,我们主要选择了PDBbind数据库(v2020)进行模型训练和测试,以及Comparative Assessment of Scoring Functions(CASF)2016 [46]、Comparative Assessment of Scoring Functions(CASF)2013 [47]和Community Structure-Activity Resource(CSAR)NRC-HiQ set 1 [49]数据集作为外部基准测试集。PDBbind数据库最初由Shaomeng Wang团队在2004年提供[50],旨在全面收集实验测量的数据
讨论 我们的模型RLBindDeep采用了一种新颖的DL方法,通过结合ResNet和LSTM架构来解决提高蛋白质-配体结合亲和力预测准确性的持续挑战。我们的工作开发并验证了RLBindDeep作为一个系统,提供了更好的预测结果,优于传统的对接工具和当前的深度学习模型。在CASF-2016盲数据集上进行的基准测试显示,其皮尔逊系数为 R
结论 这项研究表明,基于深度神经网络的技术在预测蛋白质-配体结合亲和力方面具有巨大潜力,这对于药物发现和药物开发至关重要。我们提出了一种基于ResNet-LSTM的新框架RLBindDeep ,其准确性和效率远高于传统方法。该模型优于所有已知的DL模型和评分函数。这揭示了基于传统计算方法的一种有前途的替代方案
CRediT作者贡献声明 埃卡尔斯·洛德(Ekarsi Lodh): 撰写 – 审稿与编辑、撰写 – 原始草稿、验证、方法论、调查、形式分析、概念化。莎莉尼·马朱姆德(Shalini Majumder): 撰写 – 审稿与编辑、撰写 – 原始草稿、验证、方法论、调查、形式分析、概念化。塔潘·乔杜里(Tapan Chowdhury): 撰写 – 审稿与编辑、撰写 – 原始草稿、验证、监督、方法论、调查、形式分析、概念化。马纳希·德(Manashi De): 撰写 – 审稿与编辑、撰写
利益冲突声明 作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。