《Current Opinion in Structural Biology》:Deep learning–based postprocessing and model building for cryo-electron microscopy maps
编辑推荐:
深度学习在冷冻电镜结构解析中的应用综述,涵盖地图后处理与原子模型构建方法,包括新模型生成、模板结构配准和整合多数据建模,分析当前技术瓶颈与未来研究方向。
陶丽|黄胜友
华中科技大学物理学院,中国湖北省武汉市430074
冷冻电子显微镜(cryo-EM)已成为确定生物大分子结构的最强大技术之一。cryo-EM的最终目标是确定目标分子的原子结构,其中图谱后处理和原子模型构建是cryo-EM流程中的两个关键最终步骤。随着人工智能的快速发展,深度学习已应用于cryo-EM的各个阶段。本文全面概述了cryo-EM图谱后处理和模型构建的最新进展,重点介绍了基于深度学习的方法。我们还讨论了现有方法的优点和局限性以及未来研究需要解决的挑战。
引言
冷冻电子显微镜(cryo-EM)已成为确定大型复杂生物大分子近原子分辨率结构的基石技术[1, 2, 3],这一点从蛋白质数据库(PDB)中不断增长的cryo-EM结构数量可以看出[4]。cryo-EM能够直接可视化生物分子在其接近天然状态且通常具有多种构象的状态。这一能力为包括膜蛋白、核糖体、病毒衣壳和核糖核蛋白复合物在内的多种系统提供了革命性的见解,其中许多系统此前难以进行高分辨率结构测定。
cryo-EM数据处理流程包括几个关键阶段:运动校正、对比度传递函数(CTF)估计、粒子挑选、二维(2D)和三维(3D)分类、3D重建、图谱后处理以及原子模型构建[5, 6, 7, 8, 9](图1)。准确的模型构建依赖于对重建的cryo-EM图谱进行适当的后处理,这对于下游的功能分析和药物发现至关重要。因此,尽管cryo-EM流程的每个阶段都对最终确定的结构准确性都有贡献,但后两个阶段——图谱后处理和原子模型构建——对于3D密度图的解释尤为重要。
随着人工智能(AI)的快速发展,深度学习(DL)已被广泛应用于cryo-EM分析,并在流程的最后阶段带来了显著进展。深度神经网络在提高图谱质量、构建蛋白质和核酸(NA)骨架以及识别氨基酸或核苷酸类型方面表现出巨大潜力。这些基于DL的方法使建模过程更加准确、自动化且易于使用,减少了大量手动干预的需求。
本文不涵盖整个cryo-EM流程,而是全面概述了基于DL的cryo-EM图谱后处理和结构建模的最新进展,包括从头建模、结构拟合以及利用多种数据源的集成建模。我们总结了代表性方法,并重点介绍了最近的研究,强调了它们的核心架构和关键创新(表1)。同时,我们也讨论了该领域当前面临的挑战并概述了未来研究的方向。
图谱后处理
原始的cryo-EM密度图通常存在显著的异质性、低信噪比和较差的高分辨率特征。因此,后处理是提高图谱可解释性和改善下游模型构建质量的重要步骤。经过后处理后,图谱通常会展现出更高分辨率的细节,这对手动和自动化建模都有很大帮助。传统的后处理方法通常通过在傅里叶空间中对图谱进行锐化来实现这一点
从头建模
从头建模是从cryo-EM图谱中构建3D结构,而不使用参考结构。在没有结构模板的情况下从cryo-EM图谱构建原子模型既耗时又技术难度大。然而,最近的自动化方法显著加快了这一过程。早期的传统方法如Pathwalking [23] 和 Mainmast [24] 试图通过识别伪原子并将它们连接成链来从密度图中重建骨架轨迹结构拟合
对于中等分辨率的图谱或具有目标大分子同源结构的图谱,一种实用的建模方法是将这些结构模板拟合到cryo-EM密度图中以获得初始模型。在没有同源模板的情况下,RoseTTAFold [39,40]、AlphaFold2 (AF2) [41] 或 AlphaFold3 (AF3) [42] 预测的高精度结构可以为初始模型提供有价值的起点[43]。为了
集成建模
随着像AlphaFold2这样的蛋白质结构预测技术的突破,结合结构预测和DL的方法已被越来越多地开发出来,用于从cryo-EM图谱中构建更稳健的模型[57, 58, 59, 60, 61, ?62, 63, ?64]。除了解决中等至低分辨率建模的难题外,这种集成建模方法还可以显著提高日益普遍的高分辨率密度图的模型构建准确性和覆盖率。
挑战与未来方向
cryo-EM结构确定涉及从2D到3D的复杂数据处理步骤。深度学习的最新进展通过实现自动图谱增强和模型构建,显著减少了3D相关任务所需的时间和人工干预。这些方法展示了指导手动解释或自动化模型构建的潜力,这对于具有挑战性的目标尤为重要。然而,要获得准确的模型,仍有许多挑战需要解决
利益冲突声明
作者声明他们没有已知的可能会影响本文所报告工作的财务利益或个人关系。
致谢
本工作得到了国家自然科学基金(项目编号32430020、32161133002和62072199,资助S.H.)、CPSF的博士后奖学金计划(项目编号GZB20250617,资助T.L.)以及华中科技大学的启动资金的支持。