编辑推荐:
本文聚焦无序蛋白(IDPs),阐述原子分子动力学(MD)模拟在其研究中的重要进展。借助 IDP 测试力场和计算技术,MD 模拟能解释 IDP 序列相关动力学、结合机制等,AI 和机器学习(ML)还进一步拓展其应用,为相关研究提供新视角。
IDP 模拟需要经 IDP 测试的力场
在蛋白质 - 水系统的全原子力场发展历程中,多数时候其参数化是针对折叠蛋白的。若直接使用这些 “传统” 力场模拟 IDPs,会导致二级结构过度稳定以及整个蛋白质过度压缩。为精确模拟 IDPs,使用经 IDP 测试的力场至关重要。例如,TIP4P - D 水模型通过调整参数,增强了水 - 蛋白质(和水 - 水)的色散相互作用,能减少或消除 IDPs 的过度压缩。2018 年的一项基准测试表明,当时现有的力场都无法同时很好地模拟结构化蛋白和 IDPs,于是开发了 Amber99SB - disp 蛋白力场和 a99SB - disp 水模型,该模型能较好地再现 α - 突触核蛋白等 IDPs 的回转半径和核磁共振测量结果。
除构象性质外,动态性质对 IDPs 的功能也至关重要。过去,常通过重新加权或缩放模拟结果来匹配 NMR 弛豫数据。如今,一些 IDP 模拟显示,部分力场能同时再现 IDPs 的构象和动态性质。如 Virtanen 等人对比了三种力场的模拟结果与 TonB 周质结构域的 NMR 弛豫实验数据,该结构域包含一个约 150 个残基的无序区域和约 100 个残基的折叠结构域。使用经 IDP 测试的力场组合(Amberff03ws 和 TIP4P/2005)进行模拟时,无序区域保持伸展状态,且计算得到的无序区域和折叠结构域的 NMR 弛豫性质与实验数据相符;而使用传统力场(Amber99SB - ILDN/TIP3P)和另一种经 IDP 测试的力场(Charmm36m)模拟时,无序区域会围绕折叠结构域塌陷。Hicks 等人对五种力场组合在 64 个残基的 IDP ChiZ 上进行基准测试,发现 Amber14SB/TIP4P - D 在匹配实验 Cα 和 Cβ 化学位移以及小角 X 射线散射(SAXS)图谱方面表现最佳,并且该力场组合也能很好地再现 NMR 弛豫性质,还在多种 IDPs 和结构化蛋白上得到了验证。另外,由于 MD 模拟通常在恒定温度下运行,用于调节温度的恒温器可能会干扰蛋白质动力学,不过这种干扰可以且应该被消除。
全原子模拟解释 IDP 动力学的序列依赖性
全原子模拟揭示了 IDP 序列如何编码动力学信息。以 ChiZ 为例,它能采样广泛的构象空间,但序列的 N 端和 C 端在横向弛豫速率上存在不对称性。对 NH 时间相关函数进行拟合,得到三个时间常数分别约为 0.2、1.5 和 5 ns 的指数项。N 端动力学较慢,这是因为局部残基之间形成盐桥和阳离子 - π 相互作用的倾向较高,部分原因是 N 端含有全部三个酸性残基;而 C 端动力学较快,预测其能更轻松地适应结合伙伴。后续研究发现,在 ChiZ 与酸性膜结合的过程中,C 端确实是主要的膜结合区域,通过其碱性残基与酸性脂质头部基团形成多个瞬时接触,而 N 端的酸性残基会与脂质竞争与碱性残基的相互作用。
Dey 等人通过计算八种不同 IDPs 的 NMR 弛豫性质,得出了主链动力学序列依赖性的一般规则。局部接触和瞬态二级结构,尤其是 α - 螺旋,会增加较慢成分的振幅;而甘氨酸通常促进快速动力学,但也可能有助于局部和长程接触的形成。受此启发,Qin 和 Zhou 开发了一种基于序列的方法 SeqDYN,用于使用数学模型预测 IDPs 的 R2 。其中,q 参数用于模拟 20 种氨基酸具有高或低 R2 的倾向以及它们对相邻残基 R2 值的影响。通过对 45 种 IDPs 的 R2 数据进行训练,得到芳香族、精氨酸和长支链脂肪族氨基酸的 q 参数较高,而甘氨酸和短极性氨基酸的 q 参数较低,且对相邻残基的影响半长度为 5.6 个残基。
q 参数反映了氨基酸形成分子内相互作用的倾向。在液 - 液相分离(LLPS)后的致密相中,每个 IDP 链被其他 IDP 链包围,分子内相互作用让位于分子间相互作用,因此 q 参数也反映了氨基酸形成这种分子间相互作用的倾向,进而与 LLPS 的驱动力相关。实际上,q 参数与 LLPS 的临界浓度相关,芳香族氨基酸和精氨酸具有较高的 q 值,并且已知它们可通过 π - π 和阳离子 - π 相互作用介导 LLPS。此外,组蛋白 H1.0(193 个残基,净电荷 +53)和其核伴侣原胸腺素 - α(113 个残基,净电荷 - 44)这两种带相反电荷的 IDPs,在稀溶液中形成异二聚体,在较高浓度下发生异型 LLPS。MD 模拟显示,原胸腺素 - α 在致密相中的链重构时间从异二聚体中的 10 ns 增加到 110 ns,与 ns 荧光相关光谱(nsFCS)测量值相符。
全原子模拟还可以探测可能与功能过程相关的长程接触的罕见形成。在 HOX 转录因子 DFD 中,无序 N 端区域的 W346 与三螺旋束中的 R394 之间形成阳离子 - π 相互作用的概率约为 3%。推测在三螺旋束与 DNA 结合后,N 端区域会在主要的开放形式和次要的分子内结合形式之间切换。然而,当共转录因子与 DNA 结合时,W346 会与后者对接以稳定三元复合物,R394 则成为 W346 在三元复合物中的竞争位点。重要的是,形成罕见长程接触的时间常数可以通过光诱导电子转移测量,如在麻疹病毒核蛋白 125 个残基的 C 端无序区域中得到了验证。该 IDR 包含一个 18 个残基的分子识别元件(残基 485 - 502;α - MoRE),它在与磷蛋白的折叠 X 结构域结合时形成 α - 螺旋。从残基 518 的色氨酸到残基 482 或 488 的半胱氨酸的光诱导电子转移弛豫时间 τCW 分别为 7.6 μs 和 2.8 μs,模拟结果再现了这种较大的差异,并揭示了四个浅势阱,这些势阱由部分螺旋和长程盐桥稳定,只有部分势阱能分别支持 C488 - W518 和 C482 - W518 的电子转移。
全原子模拟阐明 IDP 与折叠蛋白结合的机制
Robustelli 等人模拟了 α - MoRE 与 X 结构域的结合过程。为加速自由态和结合态之间的转换,模拟在 400 K 的高温下进行,在 200 μs 内产生了 72 次结合和解离事件,并且通过反转时间方向将解离事件转换为结合事件。在过渡态集合中,α - MoRE 形成了中等水平的螺旋含量(与自由态相似),这些部分螺旋构象的灵活性使其能够与 X 结构域形成多个天然接触,随后螺旋含量和天然接触数增加,最终形成天然复合物。
肿瘤抑制蛋白 p53 的无序反式激活亚结构域(残基 17 - 27)与癌蛋白 MDM2(残基 25 - 109)的初始结合过程通过并行级联选择 MD 进行模拟。该方法先进行多个短模拟,选择蛋白质间距离最短(或最长)的快照来运行下一轮结合(或解离)模拟,然后选择两个接近天然构象的姿势进行额外的 60 ns 模拟。在这个过程中,p53 片段的螺旋含量随着天然接触的增加而增加,同时伴随着界面的脱水。最后,通过马尔可夫状态建模(MSM)分析所有姿势,得到的结合速率常数为 0.25×107 M?1s?1 ,解离速率常数为 1.1 s?1 ,与实验测量值相符。
c - Myb 的无序反式激活结构域与 CREB 结合蛋白的 KIX 结构域的结合模拟使用了自适应强盗方法。该方法与并行级联选择 MD 类似,但下一轮快照的选择是基于通过 MSM 估计的自由能。总共进行了 1809 次 250 ns 的模拟,得到了两种结合姿势,c - Myb 在每种情况下都形成了一个单一的长螺旋,与 NMR 报道的 “结合” 和 “二级” 状态相似。使用 MSM 计算得到的与 “结合” 位点的结合速率常数约为 3×107 M?1s?1 ,接近实验值。
全原子模拟揭示药物对 IDPs 的不同作用模式
与具有明确药物结合位点的结构化蛋白不同,IDPs 缺乏特定的结合口袋。全原子模拟和 NMR 化学位移扰动可识别与药物分子频繁相互作用的 IDP 残基。药物结合可能像经典的蛋白质 - 蛋白质相互作用抑制剂一样,物理性地阻断 IDP 与伙伴蛋白的相互作用,或者将 IDP 转变为无法与伙伴蛋白结合的构象状态,但通常不会将 IDP 锁定在特定构象,类似的作用模式还可以防止 IDP 聚集。
p53 与 MDM2 的相互作用是癌症研究的重要靶点,这两种蛋白质都能结合小分子。使用 REST2 增强采样方法进行的模拟显示,小分子 EGCG 的结合限制了 p53 N 端结构域(NTD;残基 1 - 61)的构象,使其过于紧凑而无法与 MDM2 结合。EGCG 通过介导 W23 - K24 和 P47 - T55 之间的相互作用实现了这种构象压缩。p53 的结合受 MDM2 N 端 24 个残基组成的无序 “盖子” 调节,该盖子在 10 ms 的时间尺度上在主要的闭合构象和次要的开放构象之间平衡,并且与 p53 竞争相同的结合位点。相比之下,盖子使 p53 结合位点对小分子 AM - 7290 的结合亲和力提高了约 250 倍。伞形采样得到 apo MDM2 闭合和开放构象之间的自由能差为 1.4 kcal/mol,进一步的模拟表明,AM - 7290 通过与 V14 和 T16 相互作用并诱导残基 21 - 25 形成螺旋,使盖子变得有序。
雄激素受体的无序反式激活单元 - 5 区域(残基 350 - 448)是去势抵抗性前列腺癌反式激活中的关键分子识别基序。化学位移扰动表明,该区域的三个新生螺旋区域(R1、R2 和 R3)是药物分子 EPI - 002 的主要结合位点,但单独的 R1、R2 和 R3 片段未检测到结合,这表明药物结合到螺旋间的界面。使用 REST2 对 R2 - R3 片段(残基 L391 - G446)进行模拟发现,EPI - 002 主要与两个芳香族残基 W397 和 W433 相互作用。在平行模拟中,第二代化合物 EPI - 7170 的结合亲和力提高了 2.5 倍,它主要与 W397 和 F437 相互作用,更高的亲和力源于其氯化苯环与芳香族残基形成 π - 堆积的倾向更大。
一些 IDPs 具有淀粉样变性倾向,使用小分子抑制其聚集是一种有前景的治疗方法。模拟揭示了药物对 Aβ42 和 α - 突触核蛋白的不同作用模式。对于 Aβ42,使用自适应采样技术的模拟显示,聚集抑制分子 10074 - G5 通过与残基 F4、Y10、F19 和 F20 的 π - π 相互作用,阻止 IDP 采样可能导致聚集的非常紧凑的构象。而对于 α - 突触核蛋白,化学位移扰动表明药物分子法舒地尔定位于聚集倾向较高的 C 端残基 121 - 140,MD 模拟显示该区域的接触概率升高。法舒地尔与 D135/E137 和 Y133/Y136 分别频繁形成静电和 π - π 相互作用。有趣的是,与药物接触概率高的 α - 突触核蛋白残基的 R2 值也升高,这可以用 R2 与 LLPS 驱动力之间的关系来解释,即残基形成分子内相互作用的倾向与形成与药物的分子间相互作用的倾向相似。
相分离系统的全原子模拟可与实验测量直接比较
Mazarakos 等人以 64 个四肽 FFssFF 的均相溶液为起始,在模拟中观察到了自发的 LLPS。他们通过在旋节线内的初始浓度开始模拟,利用旋节线分解实现了 LLPS,该方法被称为 SpiDec。SpiDec 方法被用于模拟八种非极性四肽的 LLPS,再现了显微镜下观察到的这些肽的不同凝聚物物质状态。一个分散性参数,即模拟 1 μs 后离开的周围分子的比例,捕捉了四肽在凝聚物融合速度上的顺序,凝聚物融合涉及分子间接触的断裂和重新形成。在进一步对细长盒中的两相共存进行模拟时,FFssFF 和 LLssLL 的稀相浓度和密相粘度与实验数据匹配良好。密相粘度由均方位移得出,FFssFF 凝聚物中的粘度比 LLssLL 高 7 倍,这归因于 FFssFF 凝聚物中更强的相互作用和更高的浓度。
Galvanetto 等人模拟了原胸腺素 - α/ 组蛋白 H1.0 混合物(分别为 96 和 80 个拷贝)的密相。模拟得到的原胸腺素 - α 链重构时间与实验值 400 ns 相符,尽管宏观粘度增加了 300 倍,但链重构时间仅比异二聚体中的对应时间长三倍。这种差异可以用实验数据解释,即有效粘度随移动物种的大小增加而增加。实际上,计算得到的原胸腺素 - α 在水中和密相中的扩散常数相差约 30 倍,这意味着有效粘度仅相差 30 倍。由于这两种 IDPs 的净电荷较高,盐会强烈减弱它们的异型 LLPS。
相比之下,hnRNPA1 低复杂性结构域(简称 A1)的同型 LLPS 受盐促进。MacAinsh 等人对 8 个 A1 在 50 - 1000 mM NaCl 下进行全原子模拟以解释这一现象。在 50 mM NaCl 时,A1 链不凝聚;在 150 - 300 mM NaCl 时,出现中等程度的凝聚;在 500 - 1000 mM NaCl 时,凝聚程度较高。A1 具有较大的( +9)净电荷,NaCl 的首要作用是通过结合过量的 Cl– 中和净电荷,而且离子不仅与带电侧链结合,还与主链酰胺和羰基结合。此外,Na+ 和 Cl– 频繁在 A1 链之间形成桥接,强化分子间相互作用网络。在高浓度下,NaCl 还通过将水从相互作用伙伴中吸引开,间接加强了 π - π、阳离子 - π 和氨基 - π 相互作用。基于对盐效应的理解,MacAinsh 等人定义了 IDPs 同型 LLPS 的四种不同盐依赖性类别,并根据氨基酸组成,特别是带电残基的分数、净电荷和芳香族残基的分数来预测这些类别。A1 代表具有高净电荷和高芳香族残基的类别,其 LLPS 在中等盐浓度下开始,并在高盐浓度下进一步促进。与全原子模拟相比,粗粒度模拟能捕捉净电荷中和效应,但无法捕捉离子与主链的结合以及 π 型相互作用的间接强化。ATP 能驱动具有大正净电荷的 IDPs 发生 LLPS,全原子模拟揭示这是因为 ATP 可以通过形成多种相互作用,包括盐桥、阳离子 - π、π - π 和氢键,在 IDP 链之间形成桥接。
AI 和 ML 拓展全原子模拟的应用范围
最近,AI 和 ML 被用于拓展 IDPs 的构象空间。生成式自动编码器在几微秒 MD 模拟数据的 10% - 30% 上进行训练,能快速生成 IDPs 的构象,这些构象与模拟其余部分采样得到的构象相似。IDP 构象由笛卡尔坐标表示,通过自动编码器的编码器部分映射到潜在空间,潜在空间中的构象分布拟合为多元高斯分布,从该高斯分布生成的随机潜在向量再通过自动编码器的解码器部分映射回笛卡尔空间。类似的研究使用了变分自动编码器,它在编码器和解码器之间包含一个变分层,将潜在向量约束到指定的高斯分布。还有研究开发了一种基于扩散模型的方法 IDPFold,用于从 IDPs 的序列生成构象集合。IDPFold 先使用蛋白质语言模型提取序列特征,在 25495 个 NMR 和晶体结构以及 7