编辑推荐:
本综述聚焦蛋白质 - 蛋白质相互作用(PPIs)建模领域,梳理传统对接方法(如基于模板和无模板对接)及 AI 驱动方法(如 AlphaFold 及其衍生工具)的研究现状,探讨蛋白质柔性、对共进化信号依赖等挑战,展望技术创新方向,为结构生物学和药物设计提供参考。
蛋白质 - 蛋白质相互作用建模的计算方法研究
蛋白质通过蛋白质 - 蛋白质相互作用(PPIs)执行几乎所有生命过程,其相互作用由氢键、疏水作用、静电作用和范德华力等驱动,对解析生物学机制和设计治疗干预至关重要。准确测定蛋白质复合物结构是揭示 PPIs 在健康与疾病中作用的关键,实验技术如核磁共振(NMR)、X 射线晶体学和冷冻电镜(cryo-EM)发挥了重要作用,但因成本高、实验周期长和可扩展性有限,促使计算建模作为补充方法得到发展和应用。
传统上,蛋白质 - 蛋白质对接是建模 PPIs 的主要计算策略,分为基于模板和无模板两类。基于模板的对接依赖蛋白质数据库(PDB)中可用的结构同源物,在存在密切模板时效果良好;无模板对接则通过采样构象空间和对预测复合物评分来探索结合模式,但由于搜索空间巨大和评分函数的限制,无模板方法的准确性往往不足。
近年来,人工智能(AI)和深度学习的突破从根本上改变了蛋白质复合物预测的格局。现代端到端深度学习方法,如 AlphaFold 及其衍生工具,可以同时预测整个复合物的三维结构,这些方法利用大型数据集和神经网络直接推断残基 - 残基接触和结构配置,无需显式对接步骤,提供了前所未有的预测准确性。尽管端到端 AI 模型在当前实践中占主导地位,但较大组装体的预测通常仍遵循模块化的两步工作流程:首先预测单个亚基结构,然后通过计算将它们组装成完整的复合物,该过程也可得到整合建模方法的支持,这些方法结合了冷冻电镜、X 射线衍射(XRD)和交联质谱(XL-MS)等实验数据。
蛋白质 - 蛋白质对接是一种成熟的预测 PPIs 三维结构的计算方法,自四十多年前 Janin 和 Wodak 开发出开创性的自动化算法以来,该领域发展迅速,出现了许多分析蛋白质相互作用和理解其结构机制的算法。对接算法大致分为基于模板和无模板方法,基于模板的对接假设相似的蛋白质具有相似的结合模式,而无模板对接则在没有模板的情况下探索结合模式。
采样是蛋白质 - 蛋白质对接中的关键步骤,它生成各种潜在的结合模式,然后根据形状互补性、能量分数等标准对这些模式进行评估,根据评估结果选择性能最佳的结合模式作为候选进行进一步分析,该过程可使用传统的基于搜索的方法或基于深度学习的方法。
生成候选蛋白质复合物后,有效的评分函数对于识别最准确的模型至关重要,评分函数旨在与对接模型的质量高度相关,区分正确和错误的结合模式,可分为传统和基于深度学习的方法。传统评分函数结合了各种物理和经验项,如形状互补性、埋藏表面积、范德华力等。
随着深度学习技术在蛋白质结构预测中的不断应用和发展,特别是在单体蛋白质结构的端到端预测中取得了前所未有的准确性,基于 AlphaFold 框架及其扩展的端到端蛋白质复合物结构预测领域也得到了快速发展。在 CASP14 竞赛中,基于端到端深度学习的蛋白质结构预测算法表现出色。
考虑到 AlphaFold2(AF2)在预测蛋白质单体结构方面的卓越性能,研究人员探索了其预测复合物结构的潜力。由于 AF2 最初设计为仅接受单链蛋白质序列作为输入,一些研究人员设计了变通方法使其适用于多链复合物,例如通过聚甘氨酸接头连接不同蛋白质链的氨基酸序列,有效地创建单个伪序列。
在蛋白质复合物结构预测方法(包括利用 AF2 的方法)发展的基础上,DeepMind 团队推出了 AlphaFold-Multimer(AF-Multimer),这是一种专门为蛋白质复合物重新训练的端到端结构预测算法。AF-Multimer 通过对网络架构和训练过程进行适应性修改,扩展了原始 AF2 框架,使其适应蛋白质复合物的独特特性,代表了该领域的重大进展。
AlphaFold3(AF3)是一个独立的框架,旨在预测更广泛的生物分子相互作用,包括蛋白质 - 蛋白质、蛋白质 - 核酸、蛋白质 - 小分子和蛋白质 - 离子相互作用。AF3 通过结合扩散模型和改进的架构,在预测 PPIs 方面取得了显著进展,提高了准确性和适用性,它用扩散模型取代了 AF2 中使用的注意力机制,该模型预测天然结构。
主流的端到端 PPIs 预测方法的一个核心局限性在于它们严重依赖共进化信号,这些信号来自多序列比对(MSAs)中捕获的进化模式,对于准确建模相互作用界面至关重要。相互作用链之间的多序列比对的有效配对是这些方法识别进化相关性的先决条件,但这种依赖在同源序列缺乏的情况下带来了重大挑战。
PPIs 的计算建模主要依赖三类方法:基于模板的对接、无模板对接和端到端深度学习方法。基于模板的对接在有可靠结构模板时准确性高,但受模板可用性和质量的限制;无模板对接方法虽然计算成本低且能够探索结合模式,但准确性有限;端到端深度学习方法则具有前所未有的预测准确性,但对共进化信号有依赖。
在 PPI 结构预测中,准确模拟蛋白质柔性仍然是一个核心挑战。传统的刚体对接方法最初被开发出来,但难以捕捉蛋白质在结合过程中发生的构象变化,因此出现了基于分子动力学(MD)模拟的 refinement 策略、用于侧链调整的旋转异构体库以及用于模拟 backbone 运动的弹性网络模型(ENMs,蛋白质柔性的简化模型)等。粗粒度模型也在该领域得到应用。
内在无序区域(IDRs)是蛋白质组中重要的生物学组成部分,在多种 PPIs 中起着核心作用。一些 IDRs 在与生物伴侣结合时会发生从无序到有序的转变(如耦合折叠和结合),而另一些即使在结合状态下仍保持无序。与具有明确三维构象的结构化蛋白质不同,IDRs 的特点是在生理条件下缺乏稳定的结构,它们以动态构象存在。
预测大型蛋白质复合物内的相互作用随着相互作用组件数量的增加而面临越来越多的挑战,导致预测准确性显著下降。这些挑战源于多种因素,包括实验数据有限和计算资源需求高,此外,随着蛋白质亚基数量的增加,相互作用的可能组合也会增加,进一步加剧了预测的复杂性。
尽管 PPI 建模取得了显著进展,尤其是随着对接方法和基于深度学习的预测的出现,但仍存在一些关键挑战。这些挑战源于蛋白质动力学和相互作用的内在复杂性,以及当前计算方法的局限性,主要障碍包括准确模拟蛋白质柔性、减轻对共进化信号的依赖、将预测能力扩展到大型复杂系统,以及处理涉及 IDRs 的相互作用等。未来,随着 AI 技术的不断发展和计算方法的改进,这些挑战有望逐步得到解决,从而进一步加深我们对生物分子相互作用的理解,并加速治疗干预措施的设计。