基于折叠 - 对接 - 亲和力框架预测蛋白质 - 配体结合亲和力:突破与展望

【字体: 时间:2025年04月08日 来源:Communications Chemistry 5.9

编辑推荐:

  在药物研发中,蛋白质 - 配体结合亲和力预测至关重要。现有方法多为无对接法,未考虑原子水平相互作用。研究人员开展 Folding-Docking-Affinity(FDA)框架研究,该框架性能与前沿无对接法相当,为精准预测结合亲和力提供新方向。

  在药物研发的广袤领域中,精准预测蛋白质与配体之间的结合亲和力,就如同手握开启宝藏之门的钥匙,是寻找潜在药物候选物、优化药物设计的关键所在。然而,目前的状况却不尽如人意。大多数现有的结合亲和力预测方法,像是 DeepDTA、GraphDTA 等基于机器学习的无对接(docking-free)方法,它们在预测时,往往直接从蛋白质序列和分子 SMILES 字符串入手,却忽略了蛋白质与配体在原子水平的相互作用,就好比搭建房屋时忽略了每一块砖之间的紧密连接。而当有高分辨率的共结晶三维结构时,基于对接(docking-based)的方法虽能考虑原子水平相互作用,可一旦缺乏这样的结构,其优势便难以施展。在这样的困境下,来自美国德克萨斯大学休斯顿健康科学中心麦克威廉斯生物医学信息学院(McWilliams School of Biomedical Informatics, University of Texas Health Science Center at Houston)的研究人员 Ming-Hsiu Wu、Ziqian Xie 和 Degui Zhi,决定开启一场探索之旅,试图找到新的解决办法。他们的研究成果发表在《Communications Chemistry》上,为该领域带来了新的曙光。
研究人员开展了一项关于构建 Folding-Docking-Affinity(FDA)框架的研究。该框架就像一个精密的仪器,包含三个关键组件:折叠(Folding),即从蛋白质氨基酸序列生成三维蛋白质结构;对接(Docking),将配体与生成的蛋白质结构进行对接;亲和力预测(Affinity),从预测的三维蛋白质 - 配体结合结构预测结合亲和力。而且这个框架的各个组件可以灵活替换,以适应不断发展的相关技术。

研究人员为开展这项研究,用到了几个主要关键技术方法。在折叠组件中,他们采用 ColabFold(v1.5.5),利用 MMseqs2 生成的 MSA 特征和模板结构,通过 Alphafold 2 multimer(v3)模型来生成无配体(apo)蛋白质结构。在对接部分,使用 DiffDock(v1.0)这个分数基扩散模型,为每个蛋白质 - 配体对采样十个结合姿势。最后,利用 GIGN 基于排名最高的生成结合姿势来预测结合亲和力。

下面来看具体的研究结果:

  • 亲和力预测基准测试:研究人员在 DAVIS 和 KIBA 这两个激酶特异性公共数据集上对 FDA 方法进行基准测试,并将数据集分为四种不同测试场景。结果显示,在 “both-new” 测试场景中,FDA 方法在大多数情况下优于无对接方法;在 “new-drug” 测试场景中,FDA 方法与 MGraphDTA 性能相当;在 “new-protein” 和 “sequence-identity” 测试场景中,FDA 方法在 DAVIS 数据集上超越其他无对接模型,但在 KIBA 数据集上,MGraphDTA 表现最佳,FDA 方法与 DGraphDTA 性能相近。同时,研究发现无对接模型在更具挑战性的场景中表现下降,而 FDA 框架考虑蛋白质 - 配体结合构象,在增强模型泛化性方面具有优势123
  • 消融研究:研究人员设计了三种不同场景的消融实验,分别是 Crystal-Crystal(仅通过实验确定蛋白质 - 配体结合结构)、Crystal-DiffDock(使用完整晶体蛋白质结构并通过 DiffDock 确定配体结合姿势)和 ColabFold-DiffDock(使用 ColabFold 生成的无配体蛋白质结构并通过 DiffDock 确定配体结合姿势)。令人惊讶的是,ColabFold-DiffDock 组合模型在三个测试集上表现更优。通过计算蛋白质结合口袋结构和配体姿势的结构均方根误差(RMSE),发现尽管 ColabFold 和 DiffDock 引入了噪声,但该组合模型却有更好的性能,不过其中的潜在机制尚待进一步研究456
  • 结合姿势增强:研究人员探究了是否可以利用较低排名的蛋白质构象和结合姿势作为数据增强策略来提高亲和力预测性能。实验结果表明,在 DAVIS 和 KIBA 数据集的不同数据分割中,增加结合姿势的数量在一定程度上提高了预测性能,但随着结合姿势数量的增加,性能提升逐渐减弱,甚至在某些情况下出现饱和或下降789

在研究结论和讨论部分,FDA 方法在预测蛋白质 - 配体结合亲和力方面,表现出与前沿无对接模型相当的性能,在具有挑战性的 “both-new” 分割中,相比 MGraphDTA,在 DAVIS 数据集上提高约 32%,在 KIBA 数据集上提高约 12% ,展现出对新型蛋白质 - 配体对的潜在泛化性。然而,该方法也存在一些局限性,如在不同蛋白质类型上的泛化性未得到充分验证,训练集存在数据重叠可能影响性能评估,选择标准对结果质量的影响尚不明确,计算成本较高等。尽管如此,这项研究仍具有重要意义。它提出的 FDA 框架为后续研究提供了新的思路,其发现的噪声对结合亲和力预测的积极影响,也为优化预测模型指明了新方向。未来,研究人员计划进一步探究噪声影响模型性能的机制,优化 FDA 方法,使其在药物研发领域发挥更大的作用,助力发现更多有效的药物,为人类健康事业添砖加瓦。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号