编辑推荐:
本文聚焦生物分子凝聚物相分离,综述了粗粒度(CG)和全原子分子动力学(MD)模拟的研究进展。它们从不同层面揭示相分离驱动力、分子间相互作用等。研究还探讨了现存挑战与未来方向,为深入理解相分离机制提供重要参考。
引言
生物分子凝聚物(biocondensates)参与无膜细胞器形成,改变了人们对细胞区室化的传统认知。它在众多细胞过程中发挥关键作用,并且在材料科学和合成生物学领域有潜在应用价值。要充分挖掘其潜力,就需要深入了解其形成的驱动力。
从生物物理学角度看,生物分子凝聚物是通过蛋白质和核酸的液 - 液相分离(LLPS)形成的动态分子聚集体。许多驱动相分离(PS)的蛋白质是内在无序蛋白(IDPs)或含有内在无序区域(IDRs)的蛋白质,但并非所有 IDRs 都能发生相分离,相分离是由氨基酸间多种相互作用共同控制的。
从热力学驱动力分析,相分离在理论上因混合熵损失和界面形成的表面能而不利。然而,生物分子凝聚物的表面张力极低,使得有利的相互作用能够克服这些不利因素。多价性对相分离至关重要,“贴纸 - 间隔物” 模型可以解释相分离倾向与序列的关系,其中贴纸间的相互作用驱动相分离,间隔物起连接作用。此外,IDRs 中还存在一些相互作用基序,影响相分离过程。
分子动力学(MD)模拟能够从原子层面揭示生物分子凝聚物的结构、动力学以及相分离的分子驱动力。但模拟存在挑战,如系统规模大、相关结构动力学时间尺度慢,计算需求高。粗粒度(CG)模型能提高计算效率,不过准确的能量函数对模拟的真实性至关重要。本文将回顾不同分辨率的分子模拟方法在解析生物分子凝聚物相关问题上的进展,并探讨面临的挑战和未来发展方向。
粗粒度分子动力学模拟揭示的驱动相分离的序列元件和模式
粗粒度模拟能够突出对生物分子相分离起关键作用的残基和序列特征。残基水平的 CG 模拟在描述蛋白质相行为方面取得了成功,可以捕捉实验中相分离倾向的趋势,还能将序列与蛋白质、材料性质以及凝聚物形态联系起来。
例如,CALVADOS 和 Mpipi 残基水平的 CG 模型可以对 IDRome 尺度的无序蛋白质序列进行真实模拟,为研究 IDPs 的构象提供了见解。von Bülow 等人、Ginell 等人扩展了 IDRome 范围的模拟,研究相分离和蛋白质共凝聚趋势;Pesce 等人展示了序列模式如何决定固定蛋白质序列组成下的相行为;An 等人则揭示了蛋白质序列相互作用倾向与致密蛋白质相粘度之间的权衡关系,并利用主动学习寻找形成动态凝聚物的序列。
模拟还能揭示不同蛋白质序列的混合或分离情况,以及相互作用差异如何导致凝聚物形态的多样性。比如,Driver 和 Onck 发现正交疏水相互作用和阳离子控制的相互作用决定了 FET 家族转录因子 IDRs 凝聚物的形态;RNA 聚合酶 II 无序 C 末端结构域(CTD)的磷酸化会导致不同凝聚物之间的分离。通过计算界面张力,可以解释不同形态的形成机制,并理解分子尺度相互作用对其的影响。
残基水平 CG 力场的成功得益于与实验的全面对比和自动参数化的进展。基于贝叶斯或最大熵框架,通过大量模拟并与实验结果对比来确定参数。例如,Tesei 等人通过迭代优化参数,使 CALVADOS 模型能够正确对蛋白质相分离倾向进行排序;Joseph 等人通过纳入原子模拟信息改进了模型;考虑特定效应(如阳离子 - π 相互作用、折叠和无序区域共存)的模型修改可以进一步提高准确性。
更详细的 CG 模拟方法能提供更多化学特异性,但计算需求也更高。最近开发的混合原子 / CG 力场可以在蛋白质相分离的背景下捕捉二级结构的形成,二级结构元件能够介导相分离。通用的 Martini3 CG 模型可用于模拟无序蛋白质及其相行为,例如该模型突出了 Arg 和 Lys 残基在招募客户蛋白中的作用,但也存在高估 Lys 与芳香族残基相互作用的问题。Martini3 模型还被用于研究盐浓度变化对凝聚的影响,并且扩展后可模拟凝聚物中的化学反应。不过,该模型在模拟含有无序区域的蛋白质及其凝聚物时,需要重新平衡蛋白质 - 水和蛋白质 - 蛋白质相互作用,而且序列特异性相互作用的捕捉效果以及重新缩放对分子间相互作用平衡的影响仍有待研究。
全原子分子动力学模拟揭示分子尺度驱动力和动态构象集合
粗粒度方法虽然计算效率高,但无法提供分子相互作用和结构动力学的原子层面细节,尤其是对溶剂的描述不够精确。因此,全原子模拟采用明确的溶剂模型来研究溶剂化效应。不过,由于计算需求大幅增加,全原子模拟难以描述凝聚物形成过程,通常研究预先形成的凝聚物。
Rauscher 和 Pomès 对弹性蛋白样肽、Zheng 等人对 LAF - 1 的无序结构域和人肉瘤融合蛋白(FUS)的低复杂性结构域(LCD)进行了开创性的全原子 MD 模拟研究。
Zaslavsky 等人提出水介导的蛋白质相互作用对相分离很重要,Mukherjee 和 Sch?fer 对 FUS 的 LCD 形成的同型凝聚物进行全原子 MD 研究,发现凝聚物形成时,从致密蛋白质液滴释放到周围稀相的受限水分子所带来的 -TΔS 贡献大于保留在致密相中的受限水分子的损失,溶剂化相关的热力学驱动力对相分离是有利的,且与致密相中蛋白质 - 蛋白质相互作用的贡献相当。类似结果也在对人眼晶状体蛋白 γD - 晶状体蛋白的研究中得到证实,这些发现为凝聚物在细胞应对扰动中的作用提供了分子层面的解释。
Galvanetto 等人结合单分子荧光光谱和全原子 MD 模拟,研究了两种高度带电的人类无序蛋白(原胸腺素 - α(ProTα)和组蛋白 H1)形成的复合凝聚物,发现尽管液滴的宏观粘度比水高约 300 倍,但无序蛋白在分子尺度上仍保持高度动态性,这是由于带电基团在纳秒时间尺度上的快速接触交换动力学。Galvanetto 等人还建立了物理模型,将蛋白质链在致密相中的重配置动力学与平移扩散和凝聚物粘度定量联系起来,表明基本物理原理可以较好地描述生物分子凝聚物的行为。
Rekhi 等人通过实验和全原子 MD 模拟研究了 (GRGDSPYS)25重复多肽及其变体,发现除了经典的贴纸(如 Tyr 和 Arg)之间的接触外,传统间隔氨基酸 Ser 和 Gly 参与的接触也很频繁,这扩展了 “贴纸 - 间隔物” 模型,强调了不带电、非芳香族残基介导的相互作用在驱动 LLPS 中的相关性。同时,他们还发现驱动凝聚物形成的分子相互作用与稳定凝聚物的相互作用相似,并且可以从单链溶液模拟中推断相分离倾向。
然而,单链模拟无法研究凝聚物中多条多肽链的集体行为和相关性。Polyansky 等人对酿酒酵母 Lge1 蛋白的内在无序 N 末端片段(Lge11 - 80)进行单链和多链原子 MD 模拟,发现该蛋白在凝聚物中的构象熵低于稀溶液,相分离似乎是由凝聚物中有利的优先相互作用驱动,而非蛋白质构象熵。不过,由于凝聚物相中的构象采样收敛缓慢,需要延长采样时间并应用增强采样方法进一步研究。
上述研究主要集中在蛋白质系统,而许多生物分子凝聚物是包含蛋白质和核酸等的多组分凝聚物。Unarta 等人对由支架 RNA 寡聚物和富含精氨酸的肽形成的模型凝聚物进行了大量短时间全原子 MD 模拟,发现富含精氨酸的肽与支架 RNA 形成的氢键最多、结合最强,且肽与 RNA 主链之间的氢键而非阳离子 - π 相互作用在凝聚物中起主要作用。Boccalini 等人利用增强采样方法研究了 RNA 发夹在模拟生物分子凝聚物的拥挤肽环境中的构象变化,发现 RNA 二级结构在凝聚物中显著不稳定,会采取扩展的非天然构象,其驱动力是 RNA 核碱基与周围肽通过氢键和堆积相互作用的优先溶剂化,且这种作用可通过肽序列调节。
展望和未来挑战
分子模拟在揭示液 - 液相分离的驱动力、分子相互作用以及生物分子凝聚物的结构和动力学方面越来越准确和详细。当前力场的准确性可进一步提高,机器学习(ML)力场提供了新的途径,而现有的经典力场通常也足以解释实验、设计新实验并预测结果。定量生物物理实验与模拟相结合,有助于深入理解凝聚物中(部分)无序蛋白的动态和结构特征。
未来,大规模模拟数据集适合用机器学习分析。主动学习可以帮助确定优先进行的模拟,推导序列 - 性质关系,如预测相分离浓度或设计序列。将主动学习与平均场相互作用模型结合,还能预测共相分离倾向。
随着计算能力和力场准确性的提高,大型多组分和多相系统成为研究重点。但在研究这类系统时,需要更仔细地考虑有限尺寸效应,由于致密相中的动力学缓慢以及相边界处的交换缓慢,采用合适的增强采样方法加速相空间探索对原子模拟和 CG 模拟都至关重要。
界面的描述也是一个挑战。分子在不同区域之间的交换受界面结构和动态性质的影响,而这些性质又取决于生物大分子的构象集合以及它们在边界处的径向和取向分布。von Bülow 等人发现 IDPs 在界面处的链扩张程度介于稀相和密相之间,且 IDPs 在界面处存在优先取向趋势,相分离的热力学驱动力与取向有序性相关。未来可将此类研究扩展到多层多相凝聚物,研究相分离倾向、界面结构与小分子分配之间的关系。此外,生物分子凝聚物存在相间电势,准确模拟界面需要广泛采样和精确的长程静电模型,这可能为电化学应用开辟道路。
在细胞中,凝聚物会不断重塑且可能处于非平衡状态,例如酶对凝聚物中蛋白质的翻译后修饰会调节其行为,或者系统未达到热力学最有利状态(如 FUS 和 hnRNPA1 的 IDRs 的纤维状结构是最稳定状态)。随着分子模拟技术的进步,可以更详细准确地研究这些复杂系统和过程,以揭示结构、动力学和热力学驱动力与生物功能之间的联系。