蛋白质 - 配体构象预测中相互作用恢复的评估:机器学习方法的局限性与经典对接的优势

【字体: 时间:2025年05月20日 来源:Journal of Cheminformatics 7.1

编辑推荐:

  【编辑推荐】当前蛋白质 - 配体构象预测研究多关注配体定位准确性,却忽视相互作用评估。本文针对这一问题,对比经典对接(如 GOLD)与机器学习(ML)方法(如 DiffDock-L、RoseTTAFold-AllAtom)在 PoseBusters 数据集上的表现,发现经典方法在蛋白质 - 配体相互作用指纹(PLIFs)恢复上显著更优,为模型评估提供新视角。

  
在药物研发和结构生物学领域,准确预测蛋白质与配体的结合构象是理解分子相互作用机制的核心环节。近年来,基于机器学习(ML)的方法,如扩散模型和共折叠模型,因其计算效率高和对全原子结构预测的潜力,逐渐成为主流。然而,这些方法往往仅通过均方根偏差(RMSD)等几何指标评估构象准确性,却忽视了蛋白质 - 配体相互作用的物理合理性,例如氢 bond、卤素 bond、π- 堆积等关键相互作用的重现性。这种评估上的片面性可能导致对模型性能的高估,尤其在共折叠模型中,即使 RMSD 较低,也可能无法恢复真实的生物相互作用,进而影响药物设计的可靠性。

为解决这一问题,英国 Recursion 公司与 Exscientia 公司的研究人员开展了一项系统性研究,旨在评估不同构象预测方法在恢复蛋白质 - 配体相互作用指纹(PLIFs)方面的表现。相关成果发表在《Journal of Cheminformatics》上,为构象预测模型的评估提供了关键补充。

研究团队采用 PoseBusters 测试数据集(包含 2021 年后发布的 308 个蛋白质 - 配体复合物,均不在多数 ML 模型的训练集中),对比了三类方法:经典对接算法(GOLD、FRED、HYBRID2)、ML 对接模型(DiffDock-L)和蛋白质 - 配体共折叠模型(Umol、RoseTTAFold-AllAtom、Chai-1)。研究的核心技术方法包括:

  1. 蛋白质 - 配体相互作用指纹(PLIFs)分析:使用 ProLIF 包检测氢 bond、卤素 bond、π- 堆积、阳离子 -π 等相互作用,排除疏水性和范德华力等非定向作用,聚焦对结合特异性至关重要的极性相互作用。
  2. 结构准备与优化:通过 PDB2PQR 和 RDKit 为蛋白质和配体添加显式氢原子,并利用 Merck 分子力场(MMFF)对配体构象进行最小化优化,确保不同方法在相同条件下评估。
  3. 多指标评估:综合 RMSD(≤2? 为合格)、PoseBuster 有效性(物理合理性检查)和 PLIFs 恢复率(晶体相互作用的重现比例),全面比较模型性能。

关键研究结果


1. 经典对接在 PLIFs 恢复上显著优于 ML 方法


  • GOLD 表现最佳:在 254 个有效复合物中,GOLD 不仅实现最高的 RMSD≤2? 比例(约 70%),且在 PLIFs 恢复率≥50% 的指标上远超 ML 模型。例如,在案例 6M2B-EZO 中,GOLD 完全恢复了晶体中的氢 bond 和卤素 bond,而 DiffDock-L 仅恢复 75%,RoseTTAFold-AllAtom 则完全失败。
  • HYBRID2 与 FRED 的差异:HYBRID2 因利用参考配体信息,PLIFs 恢复率略高于 FRED,但仍不及 GOLD,表明经典方法的显式相互作用导向评分函数(如 PLP、ChemGauss4)是优势关键。

2. 共折叠模型的局限性


  • 物理合理性与相互作用恢复不足:尽管 Chai-1 在 RMSD 指标上接近经典方法,但其 PLIFs 恢复率普遍低于 30%。RoseTTAFold-AllAtom 和 Umol 常生成带有立体冲突的构象,且关键残基取向错误(如案例 8A2D-KXY 中,配体正确定位但残基反向导致无相互作用),表明共折叠模型在同时预测蛋白质和配体构象时,难以兼顾几何准确性和相互作用合理性。

3. 相互作用类型的恢复差异


  • 氢 bond 的关键作用:氢 bond 是数据集中最常见的相互作用(约占 40%),经典方法对其恢复率超过 60%,而 ML 模型普遍低于 40%。这与经典评分函数对氢 bond 的显式优化直接相关,而 ML 模型因缺乏针对性损失函数,常导致官能团取向错误。
  • 阳离子 -π 与 π- 堆积的偏差:ML 模型在阳离子 -π 相互作用中常误判为离子键(如案例 7TXK-LW8),反映出其对静电互补性的建模不足。

4. 评估指标的正交性


  • RMSD 与 PLIFs 恢复的弱相关性:在 RMSD≤2? 的构象中,仍有 20%-30% 的 PoseBuster 有效构象 PLIFs 恢复率低于 50%,表明仅依赖几何指标无法保证相互作用的正确性。PLIFs 恢复率可作为现有评估体系的重要补充,尤其在药物设计中筛选具有生物相关性的构象。

结论与意义


本研究揭示了当前 ML 构象预测方法的核心局限:尽管能实现低 RMSD,却因缺乏对蛋白质 - 配体相互作用的显式建模,导致关键功能基团取向错误,进而影响构象的生物学意义。相比之下,经典对接算法通过评分函数直接优化相互作用,在 PLIFs 恢复上表现更优,提示其在药物研发中仍不可替代。

研究同时指出,共折叠模型作为新兴技术,需引入 PLIFs 或药效团敏感的损失函数,以提升相互作用预测的准确性。此外,开发结合几何与物理化学性质的综合评估指标(如加权 RMSD,对氢 bond 供体 / 受体等关键原子赋予更高权重),将有助于更全面地筛选可靠构象。

该工作不仅为构象预测模型的评估提供了新范式,也为 ML 方法的改进指明了方向 —— 通过整合显式相互作用约束,有望推动兼具几何准确性与物理合理性的新一代蛋白质 - 配体结合预测工具的发展,加速基于结构的药物发现进程。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号