编辑推荐:
研究人员为解决蛋白质构象预测难题开展 AFsample2 相关研究,结果显示其能有效预测多种构象,助力蛋白结构解析。
蛋白质,作为生命活动的主要承担者,在细胞中扮演着至关重要的角色,参与几乎所有的生物学过程。它们的功能与其复杂且动态变化的三维结构密切相关。然而,蛋白质的结构并非一成不变,而是存在多种构象状态,这些构象的变化对于理解生物过程和疾病机制至关重要,也是药物研发的关键靶点。但目前的研究手段却面临诸多挑战。传统的实验方法,如 X 射线晶体学和低温电子显微镜,虽能提供蛋白质整体构象的高精度快照,但这些快照仅仅是众多可能状态中的一小部分,难以反映蛋白质的动态变化全貌。而核磁共振技术虽能在一定程度上揭示蛋白质分子的动态特性,却受限于规模。此外,计算成本高昂的分子动力学模拟在实际应用中也存在诸多不便。
在计算领域,像 AlphaFold2(AF2)和 RosettaFold 等方法虽然在根据进化序列信息预测蛋白质准确结构方面取得了显著成果,但默认情况下只能预测单一高置信度的蛋白质结构模型,无法涵盖蛋白质的整个构象景观,难以深入洞察蛋白质功能的机制基础。因此,开发一种能够全面预测蛋白质多种构象状态的方法迫在眉睫。
来自瑞典林雪平大学(Link?ping University)的研究人员 Yogesh Kalakoti 和 Bj?rn Wallner 开展了相关研究,他们提出了 AFsample2 方法,该研究成果发表在《Communications Biology》上。这一成果意义重大,为深入了解蛋白质结构和功能提供了新的有力工具,有助于推动药物研发等相关领域的发展。
研究人员为开展此项研究,用到了几个主要关键技术方法。首先基于 AlphaFold v2.3.1 搭建预测管道,利用 DataPipline 结合 HHblits 和 Jackhammer 在多个序列数据库搜索生成多序列比对(MSA),并在 MSA 预处理步骤进行随机 MSA 掩码操作。在推理过程中,使用 AF2 的十组神经网络权重以获得最佳性能。同时,引入填充比(fill-ratio)这一指标量化构象多样性,通过 TM-score 评估模型与参考状态的相似性 。
下面来看具体的研究结果:
- 方法开发:AFsample2 通过随机将 MSA 中的列替换为 “X” 来引入噪声,打破共进化约束,增加生成蛋白构象的多样性。实验发现,MSA 掩码的比例是影响推理系统生成替代构象能力的关键因素,15% 的掩码比例在多数情况下表现较好,但不同目标蛋白的最佳掩码比例有所差异。此外,增加采样数量有助于生成更高质量的模型,综合考虑速度和性能,1000 次采样、15% 掩码比例是较为合理的默认设置123。
- 与现有方法比较:研究人员将 AFsample2 与标准 AF2(AFvanilla)、MSAsubsample、AFcluster、SPEACH_AF 和 AFsample 等方法进行比较。在 OC23 数据集上,AFsample2 在预测开放状态模型方面表现显著优于其他方法,生成的开放和封闭状态模型质量更高,能为更多目标蛋白生成 TM-score > 0.8 的两种状态模型。在 AUC 评估中,AFsample2 也表现出色,优于多数其他方法45。
- 生成多样的蛋白质集合:AFsample2 不仅能有效生成开放和封闭构象,还能产生两者之间的多种潜在中间状态模型。通过填充比指标评估,发现 AFsample2 生成的模型集合多样性更高,在多数目标蛋白(15/23)上表现突出,能生成中间状态模型,而其他方法在这方面存在不足67。
- 中间状态的验证:通过在蛋白质数据库(PDB)中搜索相似序列的结构,研究人员发现对于部分目标蛋白,AFsample2 生成的模型与 PDB 中的中间结构具有高度相似性(TM > 0.9),表明这些模型可能是真实的中间状态89。
- 与实验数据的一致性:计算生成模型集合的 Cα 坐标均方根波动(RMSF),并与实验测定的开放和封闭状态间的实际残基距离(ΔCα)进行比较。结果显示,AFsample2 生成模型的 RMSF 与 ΔCα 相关性更高,且能更好地捕捉波动幅度,说明其构象多样性得到增强1011。
- 选择蛋白质状态:AFsample2 引入一种简单策略来识别蛋白质的两种构象状态。该策略基于 AF2 推理系统对特定状态的偏好性,通过计算与最佳模型的相似性、置信度筛选和极值选择三个步骤来实现。经基准测试,该方法在不同方法生成的模型集合上均能较好地选择出相对高质量的两种状态模型1213。
- 在额外数据集上的评估:在包含 16 个转运蛋白的数据集上,AFsample2 同样表现出色。它能为更多目标蛋白预测出向内和向外两种构象状态,且生成模型的质量更高,在 AUC 评估中优于其他方法,再次证明了其有效性和普适性1415。
- 案例研究:针对传统方法难以建模的折叠转换蛋白,AFsample2 展现出独特优势。在对修饰的 S6 核糖体蛋白建模时,尽管多数高置信度模型与 FS1 状态相似,但 AFsample2 能生成少量与 FS2 状态高度相似的模型,表明其可对未在训练集中出现的蛋白质进行预测,拓宽了 AF2 的应用范围1617。
研究结论和讨论部分指出,AFsample2 通过随机 MSA 列掩码方法,有效改进了蛋白质构象状态的采样,在多种蛋白质数据集上显著提升了替代状态的预测能力,生成的构象集合更加多样,且能识别出可能的中间状态,与实验数据的一致性更好。这一方法不仅为研究蛋白质的构象动力学提供了更全面的视角,还有助于理解蛋白质功能和疾病机制,为药物研发提供更精准的结构基础。虽然目前 AFsample2 仅在单体蛋白上进行了测试,但未来可扩展应用于多聚体蛋白复合物的构象预测。此外,AFsample2 的策略不局限于 AF2 推理系统,还可应用于其他基于 MSA 的预测系统,具有广阔的应用前景。