基于生物物理学的蛋白质语言模型在蛋白质工程中的应用

【字体: 时间:2025年09月12日 来源:Nature Methods 32.1

编辑推荐:

  本刊推荐:为解决传统蛋白质语言模型(PLMs)依赖进化数据而忽略生物物理机制的问题,研究人员开发了突变效应迁移学习(METL)框架,通过分子模拟生成合成数据预训练Transformer模型,再经实验数据微调,显著提升了小样本学习和位点外推能力。实验证明METL仅用64个样本即可设计功能性绿色荧光蛋白(GFP)变体,为蛋白质工程提供了新范式。

  

蛋白质是生命活动的核心执行者,其功能由氨基酸序列决定。传统蛋白质语言模型(Protein Language Models, PLMs)如UniRep和进化尺度模型(ESM)通过分析自然进化序列来预测蛋白质性质,但这些模型忽略了近百年来积累的蛋白质生物物理学知识,无法捕捉蛋白质功能背后的物理机制。尤其在数据稀缺的蛋白质工程场景中,传统PLMs的泛化能力受限,难以设计具有特定功能的新蛋白质。

为此,威斯康星大学麦迪逊分校的Sam Gelman等研究人员在《Nature Methods》发表了题为“Biophysics-based protein language models for protein engineering”的研究,提出了突变效应迁移学习(Mutational Effect Transfer Learning, METL)框架。该框架将分子模拟生成的生物物理数据与实验数据相结合,预训练Transformer神经网络,使模型能够理解蛋白质序列、结构和能量之间的基本关系,再通过微调适应特定蛋白质工程任务。

研究主要采用以下技术方法:1. 使用Rosetta分子建模平台生成数百万蛋白质变体的生物物理属性数据;2. 构建基于Transformer的编码器网络,引入三维结构相对位置嵌入(3D relative position embeddings);3. 设计局部(METL-Local)和全局(METL-Global)两种预训练策略,分别针对特定蛋白质和多样化蛋白质折叠空间;4. 通过11个实验数据集评估模型在小样本学习、突变外推、位点外推等任务上的性能;5. 结合模拟退火算法进行绿色荧光蛋白(GFP)变体的实验验证。

预训练PLMs与合成数据

研究人员通过Rosetta模拟生成包含55种生物物理属性(如分子表面积、溶剂化能、范德华相互作用等)的大规模数据集,预训练Transformer编码器。METL-Local针对特定蛋白质(如GB1)生成2,000万变体进行训练,而METL-Global基于148种多样蛋白质结构生成约3,000万变体,学习通用蛋白质表示。预训练后的模型在生物物理属性预测上表现出高准确性(斯皮尔曼相关系数达0.91),并成功捕获了蛋白质结构特征和残基可及性信息。

生物物理PLMs的泛化能力

研究在11个实验数据集(如GFP、GB1、TEM-1等)上评估了METL的预测性能。结果显示,在小样本设置下(训练样本数≤128),METL-Local和Linear-EVE(结合进化特征的线性回归)显著优于通用模型(如ESM-2)。METL-Local在GFP和GB1数据集上表现尤为突出,其性能与Rosetta总评分和实验数据的相关性密切相关。

外推任务测试表明:

  • 突变外推:模型对未见过氨基酸类型的预测能力较强,所有监督模型平均斯皮尔曼相关系数在-0.70至-0.78之间;

  • 位点外推:METL-Local和ProteinNPT表现最佳(相关系数0.59和0.65),说明局部预训练数据提供了全面的位点先验知识;

  • 组合突变预测:线性回归假设加性效应主导功能景观,监督模型平均相关系数超0.75;

  • 评分外推:预测高评分变体是所有模型中最挑战的任务,仅GB1数据集上监督模型相关系数超0.55。

模拟与实验数据的信息价值

通过量化GB1模型中模拟与实验数据的相对价值,研究发现增加两类数据均可提升性能,但存在收益递减效应。例如,1,000个模拟数据点+320个实验数据点的组合与8,000个模拟数据点+80个实验数据点的组合性能相当。蛋白质大小影响信息增益模式,小蛋白质(如GB1)响应更渐进,而大蛋白质(如PTEN)存在阈值效应。

功能特异性模拟改进METL表示

针对GB1与免疫球蛋白G(IgG)结合实验,研究开发了METL-Bind模型,在预训练中加入17个结合相关属性。结果显示,在有限实验数据下,METL-Bind显著优于标准METL-Local,尤其在结合界面残基(如谷氨酸27)的预测误差降低。这表明功能特异性模拟可提升模型对目标功能的感知能力。

METL设计多样化GFP变体

为验证METL的实际应用价值,研究使用仅64个训练样本微调METL-Local,设计了20个GFP变体(含5或10个突变),分为“已观察氨基酸”和“未观察氨基酸”两种场景。实验验证显示:

  • “已观察”设计成功率100%(10/10变体具有荧光活性);

  • “未观察”设计成功率60%(6/10变体具有荧光活性),但亮度低于野生型;

  • 随机基线变体几乎无荧光活性,表明METL设计非偶然。

    mKate2荧光信号分析表明,设计变体可能通过稳定化机制间接改善功能。

讨论与结论

METL框架成功将生物物理模拟与机器学习结合,填补了传统PLMs忽略物理机制的空白。其核心优势在于:

  1. 1.

    通过分子模拟提供可控且大规模的合成数据,克服进化数据的系统偏差;

  2. 2.

    在小样本和复杂外推任务中表现卓越,适用于实际蛋白质工程场景;

  3. 3.

    功能特异性模拟(如METL-Bind)可进一步定制模型,拓展至酶催化、构象动态等研究。

尽管METL-Global在通用表示学习上仍有改进空间(如过拟合问题),但未来可通过增加蛋白质多样性、整合进化PLMs先验知识等方式增强泛化能力。本研究为蛋白质设计提供了新范式,强调“生物物理语法”在解码蛋白质序列-功能关系中的重要性,为设计非自然蛋白质功能奠定基础。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号