基于生物物理学的蛋白质语言模型在蛋白质工程中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月12日 来源：Nature Methods 32.1

编辑推荐：

　　本刊推荐：为解决传统蛋白质语言模型(PLMs)依赖进化数据而忽略生物物理机制的问题，研究人员开发了突变效应迁移学习(METL)框架，通过分子模拟生成合成数据预训练Transformer模型，再经实验数据微调，显著提升了小样本学习和位点外推能力。实验证明METL仅用64个样本即可设计功能性绿色荧光蛋白(GFP)变体，为蛋白质工程提供了新范式。

蛋白质是生命活动的核心执行者，其功能由氨基酸序列决定。传统蛋白质语言模型（Protein Language Models, PLMs）如UniRep和进化尺度模型（ESM）通过分析自然进化序列来预测蛋白质性质，但这些模型忽略了近百年来积累的蛋白质生物物理学知识，无法捕捉蛋白质功能背后的物理机制。尤其在数据稀缺的蛋白质工程场景中，传统PLMs的泛化能力受限，难以设计具有特定功能的新蛋白质。

为此，威斯康星大学麦迪逊分校的Sam Gelman等研究人员在《Nature Methods》发表了题为“Biophysics-based protein language models for protein engineering”的研究，提出了突变效应迁移学习（Mutational Effect Transfer Learning, METL）框架。该框架将分子模拟生成的生物物理数据与实验数据相结合，预训练Transformer神经网络，使模型能够理解蛋白质序列、结构和能量之间的基本关系，再通过微调适应特定蛋白质工程任务。

研究主要采用以下技术方法：1. 使用Rosetta分子建模平台生成数百万蛋白质变体的生物物理属性数据；2. 构建基于Transformer的编码器网络，引入三维结构相对位置嵌入（3D relative position embeddings）；3. 设计局部（METL-Local）和全局（METL-Global）两种预训练策略，分别针对特定蛋白质和多样化蛋白质折叠空间；4. 通过11个实验数据集评估模型在小样本学习、突变外推、位点外推等任务上的性能；5. 结合模拟退火算法进行绿色荧光蛋白（GFP）变体的实验验证。

预训练PLMs与合成数据

研究人员通过Rosetta模拟生成包含55种生物物理属性（如分子表面积、溶剂化能、范德华相互作用等）的大规模数据集，预训练Transformer编码器。METL-Local针对特定蛋白质（如GB1）生成2,000万变体进行训练，而METL-Global基于148种多样蛋白质结构生成约3,000万变体，学习通用蛋白质表示。预训练后的模型在生物物理属性预测上表现出高准确性（斯皮尔曼相关系数达0.91），并成功捕获了蛋白质结构特征和残基可及性信息。

生物物理PLMs的泛化能力

研究在11个实验数据集（如GFP、GB1、TEM-1等）上评估了METL的预测性能。结果显示，在小样本设置下（训练样本数≤128），METL-Local和Linear-EVE（结合进化特征的线性回归）显著优于通用模型（如ESM-2）。METL-Local在GFP和GB1数据集上表现尤为突出，其性能与Rosetta总评分和实验数据的相关性密切相关。

外推任务测试表明：

•
突变外推：模型对未见过氨基酸类型的预测能力较强，所有监督模型平均斯皮尔曼相关系数在-0.70至-0.78之间；
•
位点外推：METL-Local和ProteinNPT表现最佳（相关系数0.59和0.65），说明局部预训练数据提供了全面的位点先验知识；
•
组合突变预测：线性回归假设加性效应主导功能景观，监督模型平均相关系数超0.75；
•
评分外推：预测高评分变体是所有模型中最挑战的任务，仅GB1数据集上监督模型相关系数超0.55。

模拟与实验数据的信息价值

通过量化GB1模型中模拟与实验数据的相对价值，研究发现增加两类数据均可提升性能，但存在收益递减效应。例如，1,000个模拟数据点+320个实验数据点的组合与8,000个模拟数据点+80个实验数据点的组合性能相当。蛋白质大小影响信息增益模式，小蛋白质（如GB1）响应更渐进，而大蛋白质（如PTEN）存在阈值效应。

功能特异性模拟改进METL表示

针对GB1与免疫球蛋白G（IgG）结合实验，研究开发了METL-Bind模型，在预训练中加入17个结合相关属性。结果显示，在有限实验数据下，METL-Bind显著优于标准METL-Local，尤其在结合界面残基（如谷氨酸27）的预测误差降低。这表明功能特异性模拟可提升模型对目标功能的感知能力。

METL设计多样化GFP变体

为验证METL的实际应用价值，研究使用仅64个训练样本微调METL-Local，设计了20个GFP变体（含5或10个突变），分为“已观察氨基酸”和“未观察氨基酸”两种场景。实验验证显示：

•
“已观察”设计成功率100%（10/10变体具有荧光活性）；
•
“未观察”设计成功率60%（6/10变体具有荧光活性），但亮度低于野生型；
•
随机基线变体几乎无荧光活性，表明METL设计非偶然。
mKate2荧光信号分析表明，设计变体可能通过稳定化机制间接改善功能。

讨论与结论

METL框架成功将生物物理模拟与机器学习结合，填补了传统PLMs忽略物理机制的空白。其核心优势在于：

1.
通过分子模拟提供可控且大规模的合成数据，克服进化数据的系统偏差；
2.
在小样本和复杂外推任务中表现卓越，适用于实际蛋白质工程场景；
3.
功能特异性模拟（如METL-Bind）可进一步定制模型，拓展至酶催化、构象动态等研究。

尽管METL-Global在通用表示学习上仍有改进空间（如过拟合问题），但未来可通过增加蛋白质多样性、整合进化PLMs先验知识等方式增强泛化能力。本研究为蛋白质设计提供了新范式，强调“生物物理语法”在解码蛋白质序列-功能关系中的重要性，为设计非自然蛋白质功能奠定基础。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号