AlphaFold及相关方法中训练偏差与序列比对如何影响蛋白质-肽段对接的机制解析

【字体: 时间:2025年10月15日 来源:Protein Science 5.2

编辑推荐:

  本综述深入探讨了AlphaFold2-Multimer(AF2-Multimer)、AlphaFold3(AF3)、Boltz-1及Chai-1等前沿模型在蛋白质-肽段复合物结构预测中的性能表现与内在机制。研究揭示了这些模型对训练集已见结构的显著偏好,并系统分析了多重序列比对(MSA)的质量、配对及进化信息在预测精度中的关键作用。文章指出,尽管模型在预测已知结构时表现优异,但其泛化能力受限于训练数据的多样性,为深度学习在肽对接领域的应用与优化提供了重要见解。

  
1 引言
蛋白质-肽段相互作用在众多生物过程中扮演关键角色。尽管实验解析或计算预测能提供精确的结构模型,但蛋白质数据库(PDB)仅覆盖了其中一小部分。AlphaFold2(AF2)、AF2-Multimer和AlphaFold3(AF3)等深度学习模型在预测蛋白质-蛋白质及蛋白质-肽段复合物结构方面展现出巨大潜力。例如,AF2通过多聚甘氨酸 linker 将蛋白质与肽段融合后,能以<2.5??的界面骨架RMSD准确预测51%的域-肽复合物;AF2-Multimer则无需 linker,在60%的测试案例中实现可接受的预测。然而,肽段序列较短,其多重序列比对(MSA)通常较浅或质量较差,这为依赖MSA的模型带来了特殊挑战。此外,模型是否及如何利用跨链共进化信息仍不明确。本研究旨在系统评估这些模型在蛋白质-肽段对接中的性能,并深入探究其工作机制。
2 结果
2.1 先进方法精准预测多数蛋白质-肽段复合物结构
通过从PDB筛选、聚类,研究团队构建了一个包含509个非冗余蛋白质-肽段复合物的测试集。使用未配对的MSA且无模板,各模型生成五个预测并选取排名最高的结构,以DockQ值评估精度。DockQ综合了肽段骨架RMSD、界面骨架RMSD及恢复的天然接触数,范围0–1,1表示完美匹配。所有模型均能高质量预测(DockQ >0.80)多数复合物,肽段结合姿态基本正确。例如,AF3对6A8N_AP的预测准确捕获了尿激酶型纤溶酶原激活剂与环肽的相互作用及二硫键;而7Q43_CD的预测虽结合位点正确,但肽段取向偏差,仅为中等精度。部分案例如8TOQ_AE,所有模型均错误预测肽段取向;3BL2_AC则因蛋白质结构预测失败导致对接不佳。进一步定义原子级精确预测标准(>90%天然接触恢复、无冲突、肽段全原子RMSD <2??、界面全原子RMSD <3??),AF3表现最佳,11%–34%预测达此标准。模型置信度分数(ipTM+pTM)与DockQ的相关系数>0.7,高置信度预测中66%–77%为高质量,但所有模型均存在高置信错误预测(假阳性率较高)。肽段二级结构分析显示,所有模型均倾向于预测更多α-螺旋和更少环状结构,而环状界面复合物平均预测成功率较低。
2.2 预测精度在未见复合物中较低
研究按训练截止日期划分预处理与后处理集,AF3、Boltz-1和Chai-1在后处理集上表现显著较差(p=4.4E?3至1.2E?4),而AF2和AF2-Multimer无显著差异。后处理结构中,仅6%–13%预测达原子级精确,而预处理集为22%–38%,表明高精度可能依赖训练集结构细节的记忆。通过更严格的训练-测试集重叠评估,定义结合位点匹配(同源蛋白结合结构相似肽段,RMSD<10??),发现除AF2外,所有模型对有结合位点匹配的复合物预测更准确。AF2因未在复合物上训练,偏差较小但性能较差。结合位点匹配数量与DockQ相关性弱,但高表示复合物几乎总被预测良好。无匹配复合物中,AF3、Boltz-1和Chai-1无一实现原子级精确预测,且肽段单独预测与结合结构差异大(TM-score中位数0.27–0.37)。分析错误预测案例,发现42%(如AF3)的预测界面在训练集中比实验界面有更多匹配,表明模型可能倾向于选择训练常见结合模式。例如,4B8P_AC中,AF3将肽段错误对接至主要核定位信号(NLS)位点;6TYX_AC中,AF2-Multimer排名第一和第三的预测将肽段置于错误位点,而其他排名则正确。
2.3 模型不依赖MSA序列配对进行蛋白质-肽段预测
尽管训练集重叠强烈影响精度,仍有部分无匹配复合物被正确预测,同时有匹配复合物预测错误,促使研究者探究模型的信息利用机制。MSA剔除后,模型极少实现准确预测,且成功案例多存在于训练集中。少数新颖复合物如8FG6_BA(de novo设计的淀粉样肽陷阱)成功预测,与先前报道一致。肽段MSA通常稀疏,仅168/509复合物有非空肽段MSA,114/509有≥50序列的MSA;默认方法构建的配对MSA几乎为空。为测试模型能否利用共进化信息,研究将肽段映射至UniProt条目,提取包含50或100残基侧翼的扩展序列构建配对MSA,仅保留PDB界定肽段列。此方法得到73(50残基上下文)和123(100残基上下文)个有效配对MSA。比较原始配对与随机配对MSA的预测,发现互信息(MI)降低但预测精度无显著差异,表明链间共进化信号对成功对接不重要。例如,3TRS_BA中,配对与随机MSA均正确预测结合位点。该结论在蛋白质-蛋白质复合物中亦得到验证,MSA随机化仅对AF2-Multimer和Boltz-1有轻微影响。
2.4 未配对蛋白质和肽段MSA的作用
为测试模型是否独立于肽段序列识别结合位点,研究掩码肽段序列为“X”。AF2-Multimer通过distogram生成接触图,以RMSDmap<2.5??为成功标准;Boltz-1和Chai-1以肽段RMSD<12??为准。序列提供预测成功案例中,40%–51%在无肽段序列下仍成功预测;序列随机重排后成功率更高,但甘氨酸替换则性能下降。训练集存在与否与掩码预测能力无关。蛋白质MSA保守性分析显示,结合位点残基通常更保守,但预测位点与实验位点保守性相似,仅AF2-Multimer预测位点保守性略高。疏水性分析表明,错误预测的结合位点并未比天然位点更疏水。模板测试显示,AF3使用天然模板(无MSA)可小幅提升性能,而AF2-Multimer在仅提供蛋白质模板(无MSA)时性能显著下降,突显蛋白质MSA对结合位点识别的重要性。肽段MSA剔除实验表明,其对多数复合物预测影响较小,但中位DockQ从0.79–0.85降至0.64–0.78,AF2-Multimer最敏感。约束实验(指定结合位点残基或距离限制)中,肽段MSA剔除仍降低精度,表明其贡献于肽段结合构象预测。AF2-Multimer的Evoformer模块中,链间注意力掩码导致性能下降,表明模型从未配对MSA中学习链间信息。
2.5 成功AF3预测新颖复合物的解释
所有模型对训练相似结构预测极佳,但部分无匹配复合物仍被AF3准确预测(DockQ >0.49)。案例包括8BRH_AB、8S6O_DH等。其中,8BRH_AB需蛋白质MSA提供进化信息;8S6O_DH仅凭模板即可对接,归因于疏水 cleft 与芳香残基相互作用,突变验证了疏水埋藏的重要性;其余案例如8FG6_BA、8HDJ_BA、8TEE_AC和9G6Z_AB,成功源于常见二级结构包装 motif(如β-sheet、α-helix)的识别。突变实验表明,肽段二级结构倾向影响结合模式。
3 讨论
本研究系统评估了AF2-Multimer、AF3、Boltz-1和Chai-1在蛋白质-肽段复合物预测中的表现。多数预测能识别正确结合位点,AF3略优,可能源于其更大训练集和记忆能力。训练集偏差显著,强调需非冗余评估集以估计新颖任务性能。模型未依赖链间共进化信号,而与先前理论相反。肽段MSA提升17%–26%预测,影响结合位点与姿态;蛋白质MSA则蕴含结合位点信息,即使肽段序列掩码。特异性挑战存在,因模型常无肽段MSA或序列下对接。成功新颖预测多涉及界面二级结构元素相互作用,进化信息、保守性及疏水性非强预测特征。未来研究需深入解析模型决策机制,借鉴蛋白质语言模型(如ESM-2)的归因方法。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号