基于预训练模型的蛋白质-配体结合亲和力高精度预测

【字体: 时间:2025年02月19日 来源:BMC Bioinformatics 2.9

编辑推荐:

  本研究聚焦于蛋白质-配体结合亲和力预测难题,提出基于预训练模型的新方法,显著提升预测精度,为药物发现提供有力支持

  在药物研发领域,蛋白质与配体之间的相互作用是关键环节,准确预测其结合亲和力对于发现潜在药物候选分子至关重要。然而,传统方法受限于实验数据稀缺、计算成本高以及对复杂相互作用的捕捉不足等问题。为突破这些瓶颈,中国人民大学数学科学研究院的研究人员开展了一项创新性研究,提出一种基于预训练模型的方法,通过引入空间感知能力,显著提升了蛋白质-配体结合亲和力预测的准确性和效率。该研究不仅在多个基准数据集上验证了模型的稳健性和泛化能力,还实现了超过95%的结合位点识别准确率,为计算药物设计提供了新的视角和有力工具。研究成果发表在国际知名期刊《BMC Bioinformatics》上。

研究背景与意义

在药物研发过程中,蛋白质与配体之间的结合亲和力是衡量药物疗效的关键指标之一。传统实验方法如X射线晶体学等虽然能够提供准确的结合亲和力数据,但往往耗时费力,难以满足大规模药物筛选的需求。因此,计算方法应运而生,旨在通过模拟和预测蛋白质-配体相互作用来加速药物发现进程。然而,现有计算方法在处理复杂生物分子相互作用时仍面临诸多挑战,例如对蛋白质和配体柔性变化的捕捉不足,以及对结合位点的依赖性等问题。这些问题不仅限制了结合亲和力预测的准确性,也影响了药物研发的效率和成功率。
为了解决这些问题,研究人员将目光转向了近年来在人工智能领域取得突破性进展的预训练模型技术。预训练模型通过在大规模数据上进行无监督学习,能够学习到生物分子的复杂特征和相互作用模式,并将其应用于特定的下游任务。这种方法有望克服传统方法的局限性,为蛋白质-配体结合亲和力预测提供更高效、更准确的解决方案。

研究方法

研究人员提出了一种基于预训练模型的新方法,该方法的核心在于利用具有空间感知能力的预训练模型来增强蛋白质-配体结合亲和力的预测。具体而言,研究团队采用了以下关键技术方法:
  1. 预训练模型构建:基于Transformer架构,研究人员开发了一个针对小分子的预训练模型,通过随机遮蔽原子类型和添加噪声的方式进行自监督学习,从而提升模型对分子结构的表征能力。
  2. 空间信息编码:通过计算原子间的距离矩阵和空间位置矩阵,将蛋白质和配体的三维结构信息融入模型中,增强了模型对分子空间关系的捕捉能力。
  3. 结合位点识别:通过分析蛋白质与配体之间的相互作用特征,模型能够识别潜在的结合位点,为药物设计提供重要参考。
  4. 多数据集验证:研究人员在PDBBind v2019精炼集、CASF基准测试集和Merck FEP基准测试集等多个数据集上对模型进行了广泛的评估,验证了其在不同数据分布下的泛化能力和预测精度。

研究结果

模型性能评估

研究人员在PDBBind v2019精炼集上对模型进行了详细评估。结果表明,该模型在不同序列相似性阈值划分的数据集上均表现出色,尤其是在LBA60数据集上,模型的皮尔逊相关系数达到了0.802,斯皮尔曼相关系数为0.798,均优于大多数现有方法。此外,通过十折交叉验证,模型在LBA30和LBA60数据集上的表现均显示出较低的标准差,表明其具有良好的稳定性和泛化能力。

CASF基准测试

在CASF-2007、CASF-2013和CASF-2016基准测试集上,该模型与多种传统评分函数和基于序列、结构的方法进行了比较。结果显示,模型在CASF-2016数据集上取得了最高的斯皮尔曼相关系数0.825,表明其在复杂蛋白质-配体相互作用预测任务中具有显著优势。

Merck FEP基准测试

Merck FEP基准测试集与PDBBind数据集的分布差异较大,为模型的泛化能力提供了更具挑战性的测试场景。研究人员在该数据集上的评估结果表明,模型的平均皮尔逊相关系数达到了0.479,仅次于GenScore,显示出其在不同数据分布下的强大适应性。

结合位点预测

研究人员还对模型的结合位点预测能力进行了评估。通过受试者工作特征曲线(ROC)分析,模型在LBA30和LBA60数据集上均取得了超过95%的AUC值,表明其在结合位点识别方面具有极高的准确性。此外,通过可视化预测结果,研究人员发现模型能够以高置信度准确识别出与配体相互作用的蛋白质残基。

研究结论与讨论

本研究提出了一种基于预训练模型的蛋白质-配体结合亲和力预测方法,通过引入空间信息和自监督学习策略,显著提升了模型对复杂生物分子相互作用的捕捉能力和预测精度。与现有方法相比,该模型不仅在多个基准数据集上表现出色,还能够准确识别结合位点,为药物设计提供了重要的参考信息。此外,模型的泛化能力在不同数据分布下得到了验证,表明其在实际应用中具有广泛的应用前景。
研究团队指出,预训练模型在生物分子表示学习中的应用为药物研发领域带来了新的机遇。未来,该方法有望进一步扩展到蛋白质-配体复合物结构的预测,以及多生物分子相互作用的建模中,从而推动计算药物设计向更高精度和更广泛应用的方向发展。此外,研究人员还强调了统一生物分子表示的重要性,通过建立跨分子尺度的预训练方法,有望打破不同生物分子表示之间的壁垒,为多生物分子相互作用的研究提供更强大的工具。总之,这项研究不仅为蛋白质-配体结合亲和力预测领域提供了新的思路和技术方法,也为未来药物研发的智能化发展奠定了坚实的基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号