《Nature Biotechnology》:Experiment-guided AlphaFold3 resolves measurement-consistent protein ensembles
编辑推荐:
AlphaFold3能从氨基酸序列预测高精度蛋白质结构,但倾向于坍缩至单一主导构象,即使底层结构本应具有异质性。此外其预测无法感知可改变局部序列构象的实验条件。本研究显示,可引导AlphaFold3使其匹配由核磁共振(NMR)波谱、X射线晶体学和冷冻电镜(cr
AlphaFold3能从氨基酸序列预测高精度蛋白质结构,但倾向于坍缩至单一主导构象,即使底层结构本应具有异质性。此外其预测无法感知可改变局部序列构象的实验条件。本研究显示,可引导AlphaFold3使其匹配由核磁共振(NMR)波谱、X射线晶体学和冷冻电镜(cryo-EM)实验及上述技术的组合所获得的数据。该方法还可整合明确报告动力学的信息,如残基分辨的有序参数(order parameter, S2)。研究人员证明,此方法生成的紧凑结构系综(structural ensemble),其系综平均可观测量与实验相符,较传统解析的NMR结构具有更少的距离限制(distance restraint)违背,并能揭示电子密度图中未建模的替代构象(alternate conformation, altloc)。该方法为实验感知的预测模型铺平道路,可生成与测量值(可跨多种实验模态)一致的构象系综,并可通过引入能量学信息进一步精修至热力学依据系综。
论文解读:Experiment-guided AlphaFold3 resolves measurement-consistent protein ensembles
一、研究背景与意义
蛋白质是固有动态的实体,可响应环境及行使生物学功能而采样多种构象状态。尽管X射线晶体学、NMR波谱和cryo-EM观测的是大分子结构的结构系综平均,蛋白质结构模型通常只报告主导构象,忽略了潜在的构象异质性。AlphaFold/AlphaFold3(AF3)基于共同进化信息和大量实验结构训练,能达到接近实验精度的单结构预测,但其训练目标——预测"最可能"的单一结构——使输出偏向静态快照,边缘化了训练数据中编码的构象异质性。目前缺乏能显式生成与实验测量一致的蛋白质结构系综的模型。本研究将AF3视为序列条件的结构先验(prior),把系综建模转化为给定实验测量的蛋白质结构后验推断(posterior inference),通过在反向扩散过程中加入基于实验似然的梯度引导项,实现多模态实验数据条件下的构象系综生成。论文发表于《Nature Biotechnology》。
二、主要关键技术方法
研究人员使用开源PyTorch重实现的AlphaFold3(Protenix)及官方AF3权重。核心方法为修改AF3扩散反演(reverse diffusion)过程:在每一时间步对采样的系综计算可微分实验似然(likelihood)——NMR的NOE距离限制与有序参数S2、X射线晶体学的实空间电子密度图(electron density map, Fo/Fc)、cryo-EM的电势(electrostatic potential, ESP)图——取其对数似然梯度作为引导项(guidance term)叠加至AF3得分函数,超参数η控制引导强度,使采样偏向符合实验测量的结构区域。扩散采样后采用AMBER14力场进行能量最小化(relaxation)修正几何畸变,随后通过正交匹配追踪(Orthogonal Matching Pursuit, OMP)或占有率优化进行系综剪枝(ensemble pruning)选取最小子集最大化解释实验观测。基准包括泛素(PDB 1D3Z/1XQQ)、83蛋白NMR数据库子集、X射线晶体结构altloc数据集、胰岛素受体IR-B(PDB 8U4B/8U4E)及淀粉样纤维cryo-EM数据;NMR数据取自BMRB,电子密度图取自PDB-Redo,ESP图取自EMDB。可选引入ProteinEBM能量基模型进行Boltzmann加权再引导或后重加权。
三、研究结果
Guiding AlphaFold3 with NMR distance restraints and order parameters efficiently generates experiment-consistent ensembles
研究人员以泛素为NMR基准,用NOE(Nuclear Overhauser Effect)成对距离上限/下限作为系综统计量引导AF3。结果表明NOE引导的AF3系综较PDB沉积系综(1D3Z)和未引导AF3显著减少距离限制违背(violation),累积违背分布左移,系综异质性更高。额外加入15N弛豫衍生的酰胺键有序参数S2引导项后,系综计算S2与实验值相关系数r=0.93、q因子=0.06,媲美计算昂贵的NMR引导系综分子动力学(PDB 1XQQ)。在8个AF3误预测短肽及83蛋白NMR光谱数据库中,NOE引导AF3在77%(70/91)案例中改善距离限制满足率,全面优于未引导AF3;ANSURR刚性分析显示92%案例RMSD评分改善。证明NMR多观测量(NOE、S2、RDC衍生S2、TALOS-N二面角)可微分引导扩散系综生成实验一致的动态表征。
Guiding AlphaFold3 with electron density captures previously unmodeled residues in X-ray crystallography data
研究人员用X射线晶体学实空间电子密度图(2Fo?Fc、绝对尺度END图、复合省略图)引导AF3。结果显示对HSP90α(PDB 6CYH)链B配体结合环区AF3预测差的区域,密度引导恢复实验精度;对SARS-CoV-2 Orf9b两种晶型(PDB 9N55/9MZB)、肌红蛋白不同晶面包埋loop(PDB 1U7R/1U7S)均能复现PDB沉积构象。密度引导可填补LPG2148(PDB 5SUJ)未建模表面loop区并更好拟合稀疏密度;恢复PAK2结合肽(无MSA条件)的晶体密度拟合;自动迭代区域检测改善全链拟合。对已有altloc的晶体结构,密度引导生成双峰骨架系综解释多峰电子密度,并检测先前未建模altloc(PDB 5NVJ)。表明X射线电子密度可作为可微分引导生成单/多构象系综及发现隐藏构象。
Guiding AlphaFold3 with cryo-EM maps
研究人员用cryo-EM ESP图引导AF3进行多聚体重建。胰岛素受体IR-B对称apo态(PDB 8U4B)及不对称IGF2结合态(PDB 8U4E),AF3过对称化预测偏差大,ESP引导产生与密度吻合构象;β-淀粉样纤维(PDB 9FH1)AF3完全误判二聚界面,ESP引导获准确密度吻合。说明ESP图引导克服AF3对大复合物及纤维误预测。
Guiding AlphaFold3 jointly with cryo-EM and NMR data
研究人员联合cryo-EM ESP图、固态NMR化学位移推导的TALOS-N二面角(?, ψ)及NOE限制引导人RIPK3淀粉样纤维(PDB 7DA4/7DAC; EMDB-30622)。单纯ESP引导改善密度拟合但骨架二面角与NOE吻合差;联合NOE+二面角引导兼顾全局密度拟合与局部结构精度。证明框架可组合异质模态似然实现多实验约束系综。
四、讨论与结论总结
研究人员将AF3重构为序列条件先验,通过扩散过程中注入可组合实验似然梯度并配合松弛与剪枝,生成紧凑系综其系综平均可观测量解释异质实验数据,应解释为受提供测量和AF3先验约束的后验结构假设而非完全校准Boltzmann平衡系综。框架支持局部到全局策略及多模态组合(距离、S2、电子密度、ESP、二面角、亚结构固定、有效性惩罚),计算开销小(典型数GPU分钟),适合整合入既有晶体学/NMR/cryo-EM流程——晶体学中提议altloc与占有率、修复弱密度loop;NMR中快速系综解读NOESY与弛豫数据;cryo-EM中向柔性区注入原子细节。需注意生成系综是对所提供数据和先验的解释性系综,混合权重不应过度解读为平衡布居;引入力场能量信息可补充约束使之趋近热力学意义系综。未来方向含更紧密整合能量先验与热力学观测量(最大熵或证据基布居估计)、统计稳健区分真实构象熵与认知不确定性、扩展配体/翻译后修饰/结构水建模。该方法推进了主流结构生物学工作流向系综中心建模的常规化。