ProFlex:基于正态模式分析的蛋白质动态解码语言桥梁
【字体:
大
中
小
】
时间:2025年10月14日
来源:Nature Communications 15.7
编辑推荐:
本研究针对人工智能生成的海量蛋白质结构数据难以有效分析动态特性的问题,开发了ProFlex这一新型语言桥梁。研究人员通过对50余万AlphaFold2预测结构进行正态模式分析,提取均方根涨落(RMSF)值,经验性定义了能够概括蛋白质相对柔性的52字母表。该字母表不仅实现了动态信息的高效压缩,更为大规模蛋白质功能分析、结构优化及系统发育研究提供了创新工具。
人工智能正在彻底改变结构生物信息学领域,其中AlphaFold无疑是迄今为止最具影响力的突破。这些方法生成的结构图谱为揭示生物学奥秘提供了重要机遇,但也对如何有效利用如此庞大的数据集提出了挑战。特别是,虽然静态结构信息得到了充分关注,但蛋白质的动态特性——即它们在执行功能时的构象变化——却往往被忽视。这种动态信息对于理解酶催化、信号转导和分子识别等关键生物过程至关重要。
正态模式分析(Normal Mode Analysis, NMA)作为一种研究蛋白质动态特性的计算方法,能够表征蛋白质或分子在稳定状态附近可能呈现的各种柔性构型。该方法基于振荡系统在平衡状态下的行为原理,当系统受到扰动时,会产生旨在恢复其原始低能量形状的校正力。通过求解特征值方程,NMA可以预测原子基于初始条件的未来位置,为蛋白质动态研究提供分析解决方案。
然而,面对AlphaFold2和ESMFold等人工智能工具生成的海量结构图谱,传统的动态分析方法显得力不从心。此前,Foldseek等工具通过3Di字母表将3D信息转化为1D,为结构比较提供了新思路,但大规模应用蛋白质动态方法的研究尚未见报道。
为了突破这一瓶颈,研究人员开展了对50多万个AlphaFold2预测蛋白质结构的大规模NMA分析。这项发表在《Nature Communications》上的研究,通过推导所有结构的均方根涨落(Root Mean Square Fluctuation, RMSF)值,经验性定义了一个名为ProFlex的特殊字母表,为蛋白质动态数据集的概括和分析提供了创新解决方案。
研究团队首先对原始RMSF数据集进行了全局分析,发现蛋白质的柔性分布跨越了6个数量级,这给分析带来了显著挑战。傅里叶分析显示,约51%的数据集被算法归类为噪声,表明大多数结构在其柔性分布中未检测到明显的周期性。这一发现暗示,全局蛋白质运动中的周期性在生物学上可能是罕见或不存在的。
在确定ProFlex字母表的最佳方法时,研究人员统计比较了三种不同的分箱方法。虽然序列特异性分箱方法表现略优,但差异出乎意料地小,表明全局数据集的箱边界对大多数序列具有高度代表性。考虑到序列特异性分箱可能导致不同序列间的字母不可直接比较,研究最终选择了全局分箱方法。
ProFlex字母表包含52个字母,涵盖了从最刚性(a)到最柔性(Z)的完整柔性谱。稳健性分析表明,即使仅使用10%的数据集,也能生成与完整数据集高度相似的ProFlex分布,序列相似性超过90%。错配分析进一步揭示,这些差异完全涉及低柔性谱中的侧翼字母转换。
研究还评估了不同模拟条件对ProFlex字母表定义的影响。使用C-alpha、ANM(各向同性网络模型)和SDENM三种力场计算的百分位数显示出高度相似性,尽管在分布曲线的肘部区域存在细微差异,这突显了建模和模拟方法一致性的重要性。
对ProFlex和NMA数据集的深入分析揭示了几个重要趋势。随着序列大小的增加,蛋白质的整体柔性呈现降低趋势,这一趋势无法用二级结构元素的分布来解释,表明这是蛋白质全局特性的产物。有趣的是,最柔性和最刚性的蛋白质都属于最小的序列,分别对应高度有序和无序的肽段。
通过建立ProFlex字母表的转换和替代矩阵,研究人员发现了非均匀的替代模式。相邻柔性状态之间的替代比高度 divergent状态之间更频繁,表明进化压力限制了功能重要区域内的柔性变异。柔性区域(通常对应于功能允许或调控位点,如环、连接区或无序区域)通过保守的柔性替代适应动态变异性,而刚性区域即使对相邻柔性状态的替代率也较低,反映了它们在维持结构完整性和活性位点架构中的重要作用。
与3Di聚类蛋白质的比较显示,ProFlex序列变异性系统性增加。3Di序列的保守性超过90%,而ProFlex等效序列降至60%,表明不同折叠间存在可变柔性。仔细检查发现,大多数差异对应于低柔性范围内相关字母的替代,而全局柔性保持高度保守。
作为捕获集体蛋白质运动的有效工具,ProFlex嵌入非常适合大规模评估柔性景观。分析显示,蛋白质中可能存在的柔性峰数量存在明确界限,且随着序列大小的增加,大规模运动减少,表明较大的蛋白质以更复杂的小规模运动阵列而非更多大规模运动为特征。
全局字母表比较和聚类分析揭示了有趣模式。比较不同字母表的聚类结果时,3Di聚类与ProFlex在2-mer和3-mer基于聚类中均表现出更高的同质性和调整兰德指数(Adjusted Rand Index, ARI),表明该对比较具有更高的聚类纯度。与二级结构聚类相比,ProFlex也显示出类似趋势,但与氨基酸定义聚类的相似性显著降低,这符合ProFlex直接源自结构信息的特点。
信息丰富度评估显示,氨基酸和二级结构字母表充分利用了其信息表征潜力,而3Di和ProFlex的比率较低,突出了结构层面生物约束可能导致的符号使用偏差。k-mer频率分布分析表明,ProFlex在4-mer和5-mer范围内呈现平衡的频率分布,但由于NMA分析描述的协调运动,特定k-mers(如ZaZaZa)的观察实际上不可能。
作为系统发育工具的应用展示了ProFlex的独特价值。对15个高度多样化Tevenvirinae噬菌体的主要衣壳蛋白序列分析显示,虽然所有方法都能捕捉基础关系,但ProFlex比较展示了最多样化的关系集合。结构水平上高度保守的簇在ProFlex水平也显示保守性,但整体差异性更大。适当结合结构信息和ProFlex可能会产生有趣的结果,智能整合所有方法对于解决多样化系统发育问题具有重要价值。
深度学习方法的探索显示了令人惊喜的效果。使用氨基酸和ProFlex特征的深度学习模型在预测最小(调整R2=0.8311)、中位(调整R2=0.8294)和平均(调整R2=0.7856)RMSF值方面表现出显著有效性,尽管最大RMSF值的预测(调整R2=0.6210)较为困难。此外,直接使用自然语言处理技术从氨基酸翻译到ProFlex的可行性研究也取得了0.7178的验证准确率,表明此类方法是可行的。
研究方法主要包括使用R编程环境中的Bio3D包对SWISS-PROT AlphaFold2生成模型进行正态模式分析,采用C-alpha力场进行初始模拟,并通过最小-最大缩放和全局分箱方法确定ProFlex字母表。研究还应用傅里叶变换、聚类分析、k-mer频率分析等多种生物信息学方法,以及深度学习模型和转换器架构,全面评估了ProFlex字母表的性能和适用性。
研究采用经验方法确定适当的字母表大小,基于数据集的全局步长确保有足够字母捕捉从一个氨基酸到下一个的柔性变化。计算显示平均步长为0.0226,中位数为0.0156,众数为0,表明存在具有相同柔性的残基片段。这些值表明需要46至67个字母范围来捕捉这些特定步长,最终选择使用总计52个字母的英文大小写字母表。
研究利用Bio-3D包中的C-alpha力场,并评估了ANM和SDENM另外两种力场以评估替代模拟条件对ProFlex百分位数定义的影响。每种力场定义的百分位数表现出高度相似性,唯一显著例外是在图表的肘部区域,SDENM显示出较浅的上升。这种差异可能会影响这些区域的最终字母表。
对原始平均RMSF值与序列大小关系的分析揭示了随着序列大小增加整体柔性降低的总体趋势。观察底层结构显示这些分别是小的、高度有序和无序的肽段,解释了底层动力学。
当比较不同字母表的聚类结果时,值得注意的是,3Di聚类在2-mer和3-mer基于聚类中与ProFlex均表现出更高的同质性和ARI分数,表明与其它字母表相比,该对具有更高的聚类纯度。与二级结构聚类相比,ProFlex也显示出类似趋势,但与氨基酸定义聚类的相似性显著降低。
检查每个字母表的信息丰富度是通过检查理论熵与经验香农熵的比率来进行的。字母表3Di、SS、ProFlex和氨基酸的比率分别为0.86、0.94、0.67和0.96。这表明氨基酸和二级结构字母表充分利用了其信息表征潜力。
使用蛋白质模型重建系统发育关系的最新兴趣激增。这种方法提供了解决可能被频繁序列替代所模糊的远缘关系的优势。然而,直接结构比较不仅计算密集,而且可能受到影响刚性体比较的轻微构象变化的限制。
将蛋白质柔性表示为相对指标的缺点在于失去了序列的整体绝对柔性。为了解决这个问题,研究调查了使用氨基酸和ProFlex特征的深度学习方法是否能够重新推导原始绝对柔性值。
研究结论表明,ProFlex作为一种新型语言桥梁,成功地将复杂的蛋白质动态信息转化为简明的字母表表示,为大规模蛋白质结构数据分析提供了创新解决方案。该方法不仅实现了动态信息的高效压缩,还为蛋白质功能理解、结构预测优化和计算分析提供了新途径。特别是,ProFlex能够捕捉生物学相关的进化约束,揭示柔性在蛋白质功能中的重要作用,为结构生物信息学开辟了新的可能性。
研究人员开发的ProFlex工具套件,包括预编译的SWISS-PROT数据集和查询功能,使研究人员能够在本地工作流程中利用这一创新工具。随着人工智能在结构生物学中的持续发展,类似ProFlex的方法将在理解和利用蛋白质动态信息方面发挥越来越重要的作用,最终推动我们对生命分子机制的理解和药物设计等应用领域的发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号