综述:蛋白质结构预测中的量子力学悖论:与序列内在相关却又独立于序列

【字体: 时间:2025年05月07日 来源:Computational and Structural Biotechnology Reports

编辑推荐:

  这篇综述聚焦蛋白质结构预测难题。从莱文塔尔悖论(Levinthal paradox)切入,阐述安芬森假说(Anfinsen’s hypothesis)等理论,分析现有预测算法如 AlphaFold 的局限。指出蛋白质结构受环境影响大,类似量子力学不确定性,强调应从新视角探索,对相关研究意义重大。

  

蛋白质结构预测中的量子力学悖论:与序列内在相关却又独立于序列


蛋白质结构预测领域一直面临诸多挑战,其中莱文塔尔悖论(Levinthal paradox)影响深远。莱文塔尔计算发现,对于含 100 个残基、99 个肽键、198 个 φ 和 ψ 键角的多肽,若每个键角有 3 种稳定构象,其错误折叠的构象数可达 3198 种。若蛋白质通过逐个尝试所有构象来达到正确折叠状态,所需时间将远超宇宙年龄,即便构象采样速度极快(纳秒或皮秒级)也难以实现。这一悖论为探索蛋白质折叠机制奠定了基础。

安芬森(Anfinsen)在 1973 年提出突破性假说,证明蛋白质即使变性后,仍能折叠成能量最稳定或热力学最有利的构象。去除变性条件后,它可自发重新折叠成正确的三维结构。安芬森也因此获得 1972 年诺贝尔化学奖,其成果为理解热力学在蛋白质结构折叠中的作用奠定了基础。

随着计算技术发展,1975 年出现首个计算机模拟,1999 年霍普菲尔德(Hopefield)发表神经网络应用论文,推动了相关领域发展。罗塞塔(Rosetta)程序利用基于物理的建模和机器学习模拟氨基酸序列折叠,在蛋白质设计、疫苗开发和酶工程等方面发挥了重要作用;霍普菲尔德网络则为神经网络领域奠定了理论基础。

早期预测蛋白质二级结构的算法基于氨基酸倾向性,如 GOR 方法、蒙特卡罗(Monte Carlo)方法等。后来,PSIPRED 通过整合神经网络改进了预测效果,I-TASSER、QUARK 等工具结合二级结构预测优化模型,ESMFold 等则运用深度学习和进化耦合预测三级结构。然而,这些方法都面临着蛋白质结构受环境影响的难题。

蛋白质合成是一个复杂且高度协调的过程。人体基因组约含 20,000 - 25,000 个蛋白质编码基因,但由于可变剪接和翻译后修饰(PTMs),蛋白质数量远超基因数量。蛋白质由 20 种标准氨基酸(有时含硒代半胱氨酸,被视为第 21 种氨基酸)通过通用遗传密码合成。

蛋白质合成包括转录和翻译两个主要阶段。转录在细胞核中进行,RNA 聚合酶结合到基因启动子区域,以 DNA 模板链合成信使 RNA(mRNA),mRNA 经剪接、加帽和加尾等修饰后进入细胞质。在细胞质中,核糖体读取 mRNA 序列,以三个核苷酸为一组(密码子),转运 RNA(tRNA)携带相应氨基酸与之结合,形成肽键,逐渐合成多肽链。翻译结束后,多肽链折叠形成三维结构,许多蛋白质还会进行 PTMs,如磷酸化、糖基化等,这些修饰对调节蛋白质活性、定位和细胞相互作用至关重要。

蛋白质结构对细胞环境高度敏感,相同蛋白质序列在不同环境条件下可形成多种稳定构象。pH 变化、离子浓度、分子拥挤、膜 proximity 和 PTMs 等因素都会影响蛋白质结构。例如,pH 改变可引发蛋白质构象重排,离子浓度影响蛋白质局部和整体结构。

蛋白质从核糖体合成后能高效折叠成功能结构,这表明自然界存在确定性的折叠途径,可能依赖序列编码的折叠原则。核糖体在蛋白质折叠初期发挥重要作用,常与伴侣蛋白协同工作。蛋白质折叠遵循能量最小化原则,通过折叠漏斗状能量景观,特定序列引导折叠向天然样中间体进行,而非尝试所有可能构象。

机器学习和人工智能在蛋白质结构预测中得到广泛应用。尽管像 AlphaFold3 这样的算法无法基于随机氨基酸序列预测结构,但结合深度学习与物理模拟(如分子动力学 MD 和量子力学 QM 建模)的混合模型正不断改进预测效果。MD 模拟可研究蛋白质动态行为,QM 方法能更深入地解释蛋白质内的电子结构和相互作用。然而,现有算法仍存在诸多局限,如无法准确预测蛋白质的物理化学性质,难以考虑蛋白质与溶剂的相互作用、PTMs 等因素。

一些蛋白质存在多种构象,甚至有无序结构(IDPs),其结构仅在与靶标结合时形成,这增加了预测难度。QM 方法与机器学习的结合虽有进展,但计算能力仍限制其对大蛋白质的模拟。此外,实验技术如氢 - 氘交换质谱(HDX - MS)和单分子荧光共振能量转移(smFRET)可提供蛋白质折叠中间状态的数据,但目前仍缺乏能准确模拟蛋白质折叠全过程的方法。

蛋白质并非刚性结构,即使静态结构相同,在生理条件下的动态行为也可能不同,这会影响受体结合过程。相同氨基酸序列的蛋白质通常会折叠成相似结构,但细胞环境和 PTMs 等因素会导致结构差异。例如,磷酸化或糖基化修饰可能改变结合位点的化学性质,影响蛋白质功能。

蛋白质结构预测的难题可与量子力学(QM)原理进行类比。海森堡不确定性原理指出,观察会影响被测量系统,类似地,蛋白质结构测定实验方法会干扰蛋白质的天然状态。量子粒子在测量前处于叠加态,蛋白质在实验条件作用前存在于动态构象集合中。不过,两者也存在差异,量子效应在原子尺度基于基本物理原理,而蛋白质构象变化在分子层面由化学和物理力驱动;量子力学中的不确定性是自然的基本限制,蛋白质结构的不确定性源于实验约束。此外,量子波函数坍缩是瞬间且不可逆的,蛋白质构象变化在适当条件下可能可逆。

目前的结构预测算法(如 AlphaFold)使用蛋白质数据库(PDB)中的数据进行训练,这些数据是在特定实验条件下获得的,无法反映蛋白质的天然状态,且算法未明确模拟蛋白质折叠的热力学景观。AlphaFold 主要基于深度学习和序列相似性预测结构,在处理新折叠、无序蛋白质或无同源结构的情况时存在困难。其预测结构的置信度分数反映了计算不确定性和蛋白质结构的动态本质,说明仅从序列预测单一 “正确” 结构可能并不现实。

测试发现,AlphaFold3 无法准确预测随机氨基酸序列的结构,即使对已知序列反向计算,其预测置信度也很低,这表明现有算法存在局限性。此外,这些模型难以预测折叠动力学、替代构象以及细胞条件对蛋白质结构的影响,无法解释蛋白质在生理条件下从展开到折叠的转变过程。

蛋白质结构预测领域面临着 “结构是序列固有的,但又独立于序列” 这一悖论。蛋白质折叠虽受序列指导,但同一序列在不同环境下可形成多种功能构象,因此完整的结构预测需要序列和环境信息。

人工智能虽推动了蛋白质结构预测发展,但仍无法解决从头折叠和热力学建模等基本问题。由于蛋白质结构受多种因素影响,且实验方法存在局限性,目前的计算和实验方法都无法从 PDB 报告的构象中确定性地预测蛋白质的精确功能三维结构。蛋白质结构应被视为动态构象集合,需结合计算预测和实验验证来推断其生物学相关结构状态。

总之,蛋白质结构预测研究任重道远,需要从新的视角和方法入手,深入探索蛋白质折叠机制,以突破现有局限,推动蛋白质设计、药物开发等领域的发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号