综述:下一代蛋白质相行为预测模型

《Current Opinion in Structural Biology》:Next-generation predictors of protein phase behavior

【字体: 时间:2025年12月12日 来源:Current Opinion in Structural Biology 7

编辑推荐:

  蛋白质相分离的计算预测方法及其挑战。当前工具在模拟分子相互作用和环境因素(如温度、离子强度)方面存在局限,需加强元数据标准统一和跨社区工具评估。

  
Nicholas C. Pinette|Mailyn Terrado|Jennifer M. Bui|Nada Lallous|J?rg Gsponer
加拿大不列颠哥伦比亚大学温哥华分校生物化学与分子生物学系,温哥华前列腺中心
通过蛋白质相分离形成的生物分子凝聚体对细胞组织和调控至关重要。近年来,随着数据集的扩大和机器学习的进步,预测蛋白质相分离倾向和凝聚体定位的计算方法发展迅速。本文综述了现有工具的最新进展和局限性。尽管有所改进,但目前模型往往无法完全捕捉相分离的复杂性,因为这一过程依赖于分子相互作用以及温度、离子强度和大分子拥挤等环境因素。令人鼓舞的是,新的方法开始纳入这些生物学变量,从而使得预测结果更符合生理实际情况。为了加速研究进展,我们倡导制定更严格的元数据标准,并开展全社区的预测工具基准测试,以确保模型能够可靠且可重复地推断蛋白质的相行为。

引言

长期以来,人们已经认识到蛋白质倾向于分离成富蛋白质相和贫蛋白质相(即发生相分离),这是由于蛋白质间的净吸引力超过了蛋白质与溶剂之间以及溶剂与溶剂之间的相互作用[1]。例如,在结晶和聚集过程中已经观察到了这种行为[2,3]。在特定的环境条件(温度、pH值和溶剂组成)下,当浓度超过某个阈值时,相分离会表现为液-液相分离(LLPS),此时蛋白质会形成一种密度高但仍保持液态的相[4,5]。LLPS可以涉及单一蛋白质物种的自组装,或者两种或更多不同蛋白质物种与其他生物分子(如DNA或RNA)的复杂关联,其中与溶剂的相互作用不如生物分子间的相互作用强烈[5,6]。人们认识到,LLPS以及溶胶-凝胶转变(液态与半固态之间的转变)和与渗透耦合的相分离可以驱动无膜生物分子凝聚体(如核仁和应激颗粒)的组装,这促使了对这些凝聚体的形成、调控及其生物学功能的深入研究[7, 8, 9, 10]。
尽管蛋白质相分离的热力学原理已经得到了很好的理解[1],但蛋白质LLPS(以及生物分子凝聚体的形成)的分子决定因素仍尚未完全阐明。LLPS本质上源于生物分子间的多价相互作用,这些相互作用的数量、强度和空间分布共同决定了凝聚体的形成。这些相互作用可以发生在内在无序区域(IDRs)内、折叠结构中,或者两者之间[8,11, 12, 13]。在形成凝聚体的蛋白质中,IDRs通常更为常见,因为它们可以编码许多能够协同作用的相互作用基序。驱动LLPS的瞬态力多种多样,包括静电相互作用[14]、π-π堆积[15,16]和阳离子-π相互作用[17],它们的相对贡献会因序列细节和溶液条件的不同而大相径庭[18,19]。翻译后修饰、pH值变化和其他环境因素可以调节蛋白质与溶剂之间的相互作用平衡,从而改变相行为[20,21]。此外,凝聚体的状态从动态的液态结构到凝胶状结构不等,这反映了相互作用寿命的差异[22,23]。这些复杂性使得预测相行为成为一项艰巨的任务。然而,实验数据的快速积累,以及将新获得的知识转化为对LLPS和凝聚体形成的预测控制的愿望,推动了众多计算工具的开发,这些工具旨在直接从蛋白质序列中推断出蛋白质相行为的各个方面。
在这篇综述中,我们总结了基于序列的蛋白质相分离预测的最新进展。虽然大多数现有的计算工具都针对LLPS的预测,但文献中通常使用“相分离”这一更广泛的术语,因此我们也采用这一术语。基于聚合物物理学的原子级和粗粒度模拟为蛋白质相分离提供了有价值的机制洞察[24, 25, 26, 27];然而,这些方法超出了本文的范围(详见参考文献[28,29])。相反,我们关注的是那些能够快速进行、主要基于序列且可能覆盖大规模(整个蛋白质组)预测的计算方法(见图1)。

小节摘录

预测蛋白质的相分离倾向

过去十年的大量实验工作开始揭示了促使蛋白质相分离的“分子机制”[14, 15, 16, 19, 30, 31]。某些序列特征,包括低复杂度区域和精氨酸、酪氨酸等残基的富集,早期就被发现与特定IDRs的相分离行为有关[31]。第一代相分离预测器利用了这些关系,基于先前的知识或

预测生物分子凝聚体的定位和组成

上一节讨论的第二代相分离预测器几乎完全是在体外数据上训练的。另一种策略是直接在细胞数据上训练模型,特别是基于实验确定的生物分子凝聚体的组成。这种方法的主要优势是随着大规模质谱技术的发展,现在有越来越多的关于凝聚体组成的数据集可供使用

预测蛋白质相图

如前所述,蛋白质相分离以及生物分子凝聚体的形成和维持受到环境因素的强烈影响,例如pH值、温度和离子强度,此外还受到蛋白质序列特征、表达水平以及与其他可能共聚集的生物分子的相互作用的影响[10]。可靠的蛋白质相行为预测必须考虑这些变量。因此,越来越多的研究致力于开发相应的工具

在残基水平上的预测

无论是第一代还是第二代预测器,无论是估计相分离倾向还是凝聚体定位,大多数都为蛋白质提供一个总体分数,而少数工具能够提供残基级别的分辨率。后者面临的一个关键挑战是检测那些可能改变蛋白质相行为的微妙序列扰动。明确模拟驱动相分离的分子相互作用的预测器通常被认为更有潜力

结论与未来方向

在过去五年中,蛋白质相分离预测领域取得了显著进展,这得益于更丰富的实验数据集和日益创新的计算方法。虽然早期的工具主要关注倾向预测,但最近的发展扩展了研究范围,涵盖了各种新的任务。我们注意到还存在其他重要的预测目标,例如预测凝聚体的粘弹性特性[77]或由致癌基因形成的特殊凝聚体

注释

由于篇幅限制,我们无法引用一些相关的参考文献。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。

致谢

J. G. 由加拿大自然科学与工程研究委员会(NSRC)资助,N. L. 由美国国防部/前列腺癌创新开发奖(HT94252510238)资助。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号