综述:实现蛋白质序列到功能范式的待办清单

【字体: 时间:2025年07月20日 来源:Current Opinion in Structural Biology 6.1

编辑推荐:

  这篇前瞻性综述犀利指出当前蛋白质功能预测领域依赖同源比对(homology-based)和模板库(library-based)方法的局限性,提出通过整合分子动力学(MD)模拟与机器学习(ML)构建生物物理特征签名(biophysical signatures)的新范式,以突破"千年级别"的全尺度动力学数据瓶颈,最终实现从序列直接解码蛋白质功能的终极目标。

  

当今分子生物学的阿喀琉斯之踵

UniProt数据库中1.5亿条蛋白质序列仅约1%经过实验验证功能注释,当序列长度超过350个残基或涉及多功能蛋白时,传统同源比对方法的局限性尤为凸显。更棘手的是,现有约6500个蛋白质超家族中,功能高度分化的成员往往具有相似序列,而功能保守的蛋白却可能呈现序列分歧——这种"序列-功能"非线性关系直指传统方法的理论天花板。

全尺度分子动力学真的是功能研究的终极答案吗?

虽然分子动力学(MD)模拟能捕捉蛋白质构象变化的原子细节,但即使借助超级计算,常规模拟仍停滞在1μs时间尺度。要覆盖生理相关的毫秒级动态过程,按当前算力需要持续计算上千年。更本质的困境在于:蛋白质功能往往取决于罕见构象态(occupancy <0.1%),这些"暗状态"在有限时长的MD轨迹中如同大海捞针。

表征学习调研揭示的突围路径

通过对机器学习模型的系统分析发现,降维技术能有效压缩生物物理特征的维度灾难。例如在药物发现领域,将构象动力学投影到低维流形(manifold)后,仅需3-5个主导运动模式即可解释80%以上的功能相关波动。引人注目的是,图神经网络(GNN)对蛋白质动态网络的表征学习展现出特殊优势,其边权重可自然对应残基间的耦合振动。

数据引导的贝叶斯模型蕴含生物物理特征

整合实验数据的贝叶斯模型能提取"功能指纹"——如ATP结合蛋白的铰链区必定呈现特定刚柔相济的动力学模式。这类特征签名已成功应用于预测G蛋白偶联受体(GPCR)的偏向性信号转导,仅需纳秒级短时模拟即可识别关键构象开关。更有突破性的是,通过将弹性网络模型(ENM)与深度学习结合,研究者实现了仅凭单个晶体结构预测别构通讯路径。

突破时间尺度限制:模拟不可及领域的建模策略

针对长时程现象(如蛋白质折叠),流匹配(flow-matching)方法通过构建马尔可夫状态模型(MSM)将短时MD轨迹拼接成毫秒级动态图谱。在核孔复合体研究中,该方法成功重现了FG重复序列的"聚合物刷"相变过程。而最新发展的神经微分方程(Neural ODE)可学习构象态间的过渡势垒,其预测的溶酶体酶激活能垒与单分子实验误差仅0.3kcal/mol。

细胞尺度建模的新边疆

构建全细胞模型需要融合超20种实验技术数据,如冷冻电镜(cryo-EM)定位核糖体、X射线断层扫描重建细胞骨架。令人振奋的是,通过将粗粒化(CG)膜模型与连续介质溶质描述耦合,研究者首次模拟出细菌分裂时FtsZ环的力学传导过程。这种多尺度方法同样适用于人类细胞——整合转录组数据的虚拟线粒体已能重现ATP产量随氧分压变化的双相曲线。

该领域正经历从"序列-结构-功能"到"序列-动态-功能"的范式转变。随着AlphaFold3开始预测构象集合而非单一结构,以及量子计算带来的皮秒级超快模拟可能,破解蛋白质功能密码的千年困局或将迎来破晓时刻。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号