深度剖析蛋白质对接模型评分函数:经典与深度学习方法的全面比较及意义探索

【字体: 时间:2025年02月10日 来源:BMC Bioinformatics 2.9

编辑推荐:

  在蛋白质 - 蛋白质对接研究中,准确高效的评分函数对区分天然和非天然结合复合物至关重要。研究人员开展了对蛋白质对接模型评分函数的研究,比较了经典和基于深度学习(DL)的方法,发现 DL 方法在多数数据集上表现更优,这对改进计算对接工具、加速药物研发意义重大。

  在生命科学的微观世界里,蛋白质就像一个个忙碌的 “小机器”,它们之间的相互作用主导着生物体几乎所有的生物学功能。为了深入了解这些 “小机器” 是如何协同工作的,科学家们致力于研究蛋白质 - 蛋白质对接,即预测蛋白质相互作用时的三维结构。然而,目前在这一领域存在着一个关键难题:缺乏准确有效的评分函数来区分蛋白质结合复合物的天然和非天然构象,这使得当前对接工具的准确性难以保证。药物研发、疫苗设计等领域都高度依赖准确的蛋白质对接结果,不准确的评分函数可能导致大量时间和资源的浪费,因此开发精准的评分函数迫在眉睫。
为了解决这一问题,来自佛罗里达国际大学(Florida International University)的研究人员 Azam Shirali、Vitalii Stebliankin 等人开展了一项关于蛋白质对接模型评分函数的研究。他们的研究成果发表在《BMC Bioinformatics》杂志上。

在这项研究中,研究人员主要运用了以下关键技术方法:首先,收集了 7 个不同的公共数据集,包括 CAPRI Score v2022、CAPRI Score Refined、Dockground 等,这些数据集涵盖了不同类型和难度的蛋白质复合物;其次,选择了 8 种常用的经典评分方法(如 FireDock、PyDock 等)和 4 种前沿的基于深度学习的评分方法(如 GNN - DOVE、DeepRank - GNN 等)进行比较分析;最后,使用多种评估指标,如受试者工作特征曲线下面积(AUC ROC)、成功率等,来全面评估这些方法的性能。

下面来详细看看研究结果:

  1. AUC ROC 评估结果:通过计算 AUC ROC 评估方法性能,结果显示在 8 个数据集中,经典方法在 2 个数据集上表现优于 DL 方法,如 AP - PISA 在 CAPRI score refined 数据集上 AUC 值最高,CP - PIE 在 BM5 数据集上表现最佳。而在其余 6 个数据集上,DL 方法表现更优,PIsToN 在其中 4 个数据集上 AUC 值最高,GNN - DOVE 在 Dockground 数据集上表现出色,dMaSIF 在 CAPRI Scoreset v2022 困难复合物数据集上表现突出。
  2. 成功率评估结果:成功率用于衡量对接方法在预测模型中获得可接受质量模型的能力。除 MaSIF - test 数据集外,DL 方法在几乎所有数据集上都优于经典方法。在不同数据集和不同排名下,PIsToN、dMaSIF 等 DL 方法多次取得最佳成绩,不过在某些数据集和排名下,经典方法也有不错表现,如 HADDOCK 在 BM4 数据集的 top 25 预测中表现优异。
  3. AlphaFold3 对接模型评估:AlphaFold3 是 DeepMind 开发的用于预测蛋白质结构和复合物的先进工具。研究人员收集数据提交给 AlphaFold3 服务器获取对接模型,并用 CAPRI 质量指标分类。结果表明,对于中等和高质量的解决方案,AlphaFold3 表现出色;在 AlphaFold3 失败的情况下,其他方法如 GNN - DOVE、PIsToN 和 dMaSIF 在不同质量水平下也有较好表现。
  4. 运行时间比较:研究人员在特定配置的机器上对各评分函数运行时间进行评估,发现 dMaSIF 和 GNN - DOVE 等 DL 方法效率更高,运行时间分别为 3s 和 7s,超过所有经典方法。若不计预计算时间,PIsToN 和 DeepRank - GNN 运行时间也有优势。
  5. 泛化能力评估:利用 USalign 计算模板建模得分(TM - score)评估 DL 方法泛化能力,结果显示不同数据集上各方法表现不同。如 DeepRank - GNN 在 BM5 数据集上表现较好,dMaSIF 和 PIsToN 在多个数据集上表现出良好泛化能力。
  6. 影响 DL 方法性能的关键因素:研究人员通过分析 CAPRI score v2022 数据集中错误分类的对接模型,发现 DL 方法性能受训练数据集、训练集与测试集关系以及模型架构等因素影响。例如,DeepRank - GNN 在 AllButOneWrongSets 数据集中表现较好,可能与其在多样性高的 BM5 数据集上训练有关。

研究结论和讨论部分指出,在经典方法中,AP - PISA 和 CP - PIE 表现突出,AP - PISA 通过原子和残基电位组合重新排名,CP - PIE 通过过滤重叠面积排除错误对接姿势。在 DL 方法中,PIsToN 和 dMaSIF 在 AUC 和成功率指标上表现优异,PIsToN 利用视觉变换器和对比训练技术整合多种特征,dMaSIF 以点云表示表面原子运行速度快,但二者也存在各自不足。总体而言,DL 方法在多数数据集上比经典方法表现更优,尤其在成功率指标上,这对药物发现和蛋白质工程等领域意义重大,可减少实验次数和成本。此外,研究还发现不同 DL 方法性能差异的原因,为后续研究提供了方向。未来研究可探索考虑蛋白质柔性的评分函数,以及开发针对多链复合物的评分方法和评估数据集。这项研究全面比较了蛋白质对接模型的评分函数,为该领域的进一步发展提供了重要参考,有助于推动计算生物学和分子建模领域的进步,加速新型药物和疫苗的研发进程。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号