FlexConsensus算法:整合多构象景观于统一共识空间的突破性方法

【字体: 时间:2025年09月26日 来源:Nature Methods 32.1

编辑推荐:

  本文介绍了一种名为FlexConsensus的新型深度学习算法,该算法通过多自编码器神经网络架构,能够将不同冷冻电镜异构性分析方法得到的构象景观映射到一个共享的共识空间中,从而解决当前构象异质性分析领域缺乏有效验证工具和结果可比性的难题。研究团队在多个标准数据集和实验数据集上验证了该方法的有效性,证明其不仅能提高构象状态估计的可靠性,还能量化不同方法间的一致性程度,为冷冻电镜构象异质性分析提供了重要的验证框架和整合工具。

  

冷冻电镜(cryo-EM)技术正在经历一场革命性的变革,特别是在探索生物大分子构象可变性方面。传统的三维分类算法只能识别有限数量的稳定状态,而新兴的异构性分析算法则致力于估计更丰富、更完整的构象景观,从而能够从近似连续体中检索任何可能的构象。然而,随着方法的多样化,一个关键问题日益凸显:如何评估这些本质上不同的异构性算法的可靠性、稳定性和正确性?

目前,冷冻电镜异质性分析领域缺乏有效的验证工具。最常用的验证方法是从构象景观中特定构象周围的小部分图像子集重建状态,然后与异质性分析方法估计的构象进行比较。但这种方法的局限性在于需要足够数量的粒子,如果所需图像数量过大,重建过程中其他结构变化的干扰会阻碍对构象空间的完整验证。此外,当前异质性分析方法的准确性仍然是一个持续研究的课题。

为了克服比较不同方法和/或运行获得的构象景观的挑战,研究团队开发了一种新的深度学习算法——FlexConsensus。这种多自编码器神经网络架构能够将多个构象景观合并到一个共同的潜在空间中,从而不仅可以分析共同的构象空间,还能确定一个共识度量,用于衡量原始构象景观中每个估计的稳定性,筛选出那些具有更高置信度的区域。

FlexConsensus提供了一个框架,其目的不是从冷冻电镜数据估计状态,而是将已经估计的景观映射到一个共同的共识空间中,同时保留原始景观的组织并增强其可解释性。与整合结构先验、将空间解耦为有意义的组件或使用统计方法分析景观等其他方法不同,分析共识空间有助于识别各种方法之间的相似性和差异,辅助估计的验证,并提供基于推导出的可靠性分数来简化异质性工作流程的工具。

研究团队通过多个数据集验证了FlexConsensus的性能。首先在CryoBench的两个数据集上评估了算法的能力,然后在两个实验数据集上评估了其在更现实和具有挑战性场景中的行为。CryoBench的IgG-RL数据集代表了一个无序肽连接体的随机构象集合,连接Fab和IgG复合体的其余部分。这个数据集对应一个具有挑战性的无序运动,所有提出的异质性分析方法至今都难以跟踪。正如原始CryoBench论文所示,不同方法获得的构象景观存在显著差异。

在分析中,研究团队使用两种不同方法(HetSIREN和CryoDRGN)估计构象空间,然后将每个方法预测的景观输入FlexConsensus以估计共识景观。结果显示,从两个原始估计获得的共识空间显示了两种方法发现的状态分布的明显差异。基于共识度量,可以过滤景观,得到一个具有更可靠状态分布的稳定表示。

第二个探索的数据集是CryoBench中的MDSpike数据集,该数据集包含从分子动力学模拟中提取的构象,产生了一个自由能景观,从中采样生成了约50,000个结构。与之前的情况类似,执行HetSIREN(无姿态优化)和CryoDRGN来估计该数据集的构象空间,然后使用FlexConsensus进行分析。结果显示,在这种情况下,两种方法估计的状态分布更加相似,这也转化为过滤后的景观损失较小比例的粒子。

除了比较不同方法的估计外,MDSpike数据集为评估方法与分子动力学确定的能量景观的比较提供了一个有趣的可能性。研究团队进行了额外的分析,将实验和模拟景观映射到一个共同空间中,重点关注将特定运动的集体变量与共识空间相关联的可能性。

接下来,研究团队在EMPIAR 10028数据集上评估了FlexConsensus的能力,这是一个众所周知且经过充分研究的数据集,展示了与恶性疟原虫80S核糖体结合依米丁的连续构象变化和状态。该数据集首先在Scipion内部使用CryoSPARC进行预处理,产生一组适当表征的实验图像,供异质性算法分析。

研究使用了两种不同的方法(HetSIREN和Zernike3D)研究构象变异性。这两种方法采用非常不同的方法来估计构象变异性,HetSIREN是一种异构重建/优化算法,而Zernike3D是一种基于变形场的方法。总共估计了三个独立的构象景观:HetSIREN在重建模式下的执行、HetSIREN在优化模式下的执行以及Zernike3D的执行。

FlexConsensus分析结果显示,Zernike3D和HetSIREN在共同景观的右上角存在明显差异。该区域的Zernike3D子空间是非结构化的(点稀疏),而与两个HetSIREN景观不同,后者显示高度有序的子空间。有趣的是,从这些点的图谱分析表明,它们对应于呈现显著组成变化的样本(它们缺少40S亚基,仅显示70S亚基),这是Zernike3D设计上无法捕捉的。

为了进一步评估FlexConsensus在不同实验条件下的能力,研究团队使用SARS-CoV-2 D614G刺突蛋白评估了该方法。该蛋白质特征明确并表现出广泛的运动范围,主要影响预融合状态、受体结合域(RBD)和N末端结构域。遵循与前一节类似的流程,实验数据集在Scipion中进行预处理,得到440,000个具有CTF和角度信息的粒子图像。

然后用两种不同的软件(HetSIREN和CryoDRGN)近似粒子捕获的结构变异性。与前一节讨论的Zernike3D不同,HetSIREN和CryoDRGN都遵循异构重建近似来从一组图像中提取构象景观。它们的构象景观应该更具可比性,因为它们遵循类似的近似来解决结构异质性问题。

对两个独立估计景观的可靠性进行的FlexConsensus分析得到了图4中呈现的共识景观。对这些表示的初步检查揭示了三个中心结构区域,对应于RBD处于三向下、一向上和两向上状态,两种方法都正确识别了这些状态。然而,HetSIREN更集中于三向下和一向上状态,与CryoDRGN不同,后者更关注两向上状态,而对三向下状态关注较少。

为了更定量地评估HetSIREN和CryoDRGN估计的结构状态的可靠性,研究团队评估了输入空间与从共识空间解码的空间之间的表示误差。解码了四个空间,这些空间是通过将HetSIREN和CryoDRGN共识空间转发通过负责从共识生成原始两个空间的解码器获得的。然后使用这四个空间计算表示误差,在扩展数据图4中表示为直方图,并直接在共识空间上测量共识误差。

直方图分析揭示了两种方法之间的轻微差异,因为从每个共识空间解码的空间的误差分布并不完全重叠。这种差异表明,尽管两种方法都正确检测了数据集中的主要构象状态,但CryoDRGN和HetSIREN估计的状态相对群体是不相等的。

类似于对CryoBench数据集进行的先前实验,研究团队过滤了从SARS-CoV-2数据集获得的共识空间,仅保留那些估计具有显著相似构象的图像。该分析获得的结果总结在图5中。

研究团队使用的主要技术方法包括:多自编码器神经网络架构,该架构包含可变数量的编码器和解码器,由输入总数决定;基于随机排列测试的过滤方法,用于确定共识图像的集合;以及集成在Scipion中的FlexConsensus协议,允许用户轻松自定义网络的超参数或选择神经网络的输入。所有数据分析均使用Scipion 3.8.0软件包进行,其中CryoDRGN版本3.4.0用于估计本文分析的构象景观,Flexutils插件版本3.3.0也一并使用。CryoSPARC 4.5.1、Relion 4.0和Xmipp 3.24.12.0软件包用于数据预处理。

研究结果显示,FlexConsensus能够有效识别不同构象景观之间的共同点和差异。在IgG-RL数据集上,FlexConsensus揭示了两种方法(HetSIREN和CryoDRGN)在估计无序肽连接体构象时的显著差异,通过共识度量过滤后,仅保留约10,000个图像,过滤后的空间分离出更多独立的抗体状态,有助于识别数据集中模拟的不同运动。

在MDSpike数据集上,FlexConsensus显示两种方法估计的状态分布更加相似,丢失的粒子比例较低。通过将模拟的真实景观与实验景观映射到共同空间,研究发现从真实空间主轴提取的集体变量与共识空间的主轴有很强的对应关系,表明共识空间能够捕捉模拟运动的相关结构信息。

对EMPIAR 10028数据集的分析表明,FlexConsensus能够检测不同方法在检测组成变化方面的差异。Zernike3D无法捕捉核糖体组成变化,而HetSIREN能够识别这些变化,这在共识空间中表现为右上角区域的结构化差异。误差直方图分析显示,两个HetSIREN运行更加相似,表明两次执行相对稳定,而Zernike3D误差倾向于与HetSIREN更偏离。

在SARS-CoV-2 D614G刺突蛋白数据集上,FlexConsensus揭示了两种方法在估计RBD状态分布方面的差异。HetSIREN更集中于三向下和一向上状态,而CryoDRGN更关注两向上状态。通过过滤共识空间,研究获得了一个新的状态分布,介于两种原始方法之间,更接近三维分类结果。

讨论部分强调,冷冻电镜界对构象可变性分析新兴领域的极大兴趣反映在近年来发表的先进方法数量不断增加。然而,对这些工具的兴趣带来了一个新的挑战,即比较不同技术的估计以评估其稳定性、可靠性和准确性。此外,所有这些新方法的多样性使得比较它们的结果更加复杂,使得找到准确定义有效共识分析的稳健方法变得更加困难。

FlexConsensus方法允许更好地理解构象景观,克服了比较不同异质性算法产生的挑战,带来了一系列可能性,从独立的构象景观中提取更可靠和准确的构象状态。通过多自编码器架构,FlexConsensus能够稳健地识别多个构象景观之间的共同点和差异,最终定义一个具有增强可解释性的共同共识景观。

从共识景观中,网络可以自动为构象景观中的每个粒子推导出一个共识误差度量,该度量可用于明确确定数据集中任何给定图像的结构状态在各种异质性方法中的可靠性,确定可以 confidently 分析的子集,或分析仅由特定算法突出的特定粒子子集。

该研究的重要意义在于为冷冻电镜构象异质性分析提供了一个重要的验证框架和整合工具。通过将不同方法的结果映射到一个共同的共识空间中,FlexConsensus不仅提高了构象状态估计的可靠性,还使得研究人员能够量化不同方法之间的一致性程度,从而更好地评估估计结果的可信度。

此外,FlexConsensus的集成到Scipion中使得用户能够轻松执行流行的异质性分析方法,并通过图形界面自定义网络的超参数。这种集成简化了数据处理和分析流程,使得研究人员能够更高效地进行构象异质性分析。

总之,FlexConsensus算法为解决冷冻电镜构象异质性分析中的验证和比较问题提供了一个强有力的工具,有望推动该领域的进一步发展和应用。通过提供共识空间和误差度量,该方法不仅增强了构象景观的可解释性,还为研究人员提供了更可靠的分析框架,从而促进对生物大分子动力学和功能机制的更深入理解。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号