
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于生物物理学的蛋白质语言模型在蛋白质工程中的应用
【字体: 大 中 小 】 时间:2025年09月12日 来源:Nature Methods 32.1
编辑推荐:
本刊推荐:为解决传统蛋白质语言模型(PLMs)依赖进化数据而忽略生物物理机制的问题,研究人员开发了突变效应迁移学习(METL)框架,通过分子模拟生成合成数据预训练Transformer模型,再经实验数据微调,显著提升了小样本学习和位点外推能力。实验证明METL仅用64个样本即可设计功能性绿色荧光蛋白(GFP)变体,为蛋白质工程提供了新范式。
蛋白质是生命活动的核心执行者,其功能由氨基酸序列决定。传统蛋白质语言模型(Protein Language Models, PLMs)如UniRep和进化尺度模型(ESM)通过分析自然进化序列来预测蛋白质性质,但这些模型忽略了近百年来积累的蛋白质生物物理学知识,无法捕捉蛋白质功能背后的物理机制。尤其在数据稀缺的蛋白质工程场景中,传统PLMs的泛化能力受限,难以设计具有特定功能的新蛋白质。
为此,威斯康星大学麦迪逊分校的Sam Gelman等研究人员在《Nature Methods》发表了题为“Biophysics-based protein language models for protein engineering”的研究,提出了突变效应迁移学习(Mutational Effect Transfer Learning, METL)框架。该框架将分子模拟生成的生物物理数据与实验数据相结合,预训练Transformer神经网络,使模型能够理解蛋白质序列、结构和能量之间的基本关系,再通过微调适应特定蛋白质工程任务。
研究主要采用以下技术方法:1. 使用Rosetta分子建模平台生成数百万蛋白质变体的生物物理属性数据;2. 构建基于Transformer的编码器网络,引入三维结构相对位置嵌入(3D relative position embeddings);3. 设计局部(METL-Local)和全局(METL-Global)两种预训练策略,分别针对特定蛋白质和多样化蛋白质折叠空间;4. 通过11个实验数据集评估模型在小样本学习、突变外推、位点外推等任务上的性能;5. 结合模拟退火算法进行绿色荧光蛋白(GFP)变体的实验验证。
研究人员通过Rosetta模拟生成包含55种生物物理属性(如分子表面积、溶剂化能、范德华相互作用等)的大规模数据集,预训练Transformer编码器。METL-Local针对特定蛋白质(如GB1)生成2,000万变体进行训练,而METL-Global基于148种多样蛋白质结构生成约3,000万变体,学习通用蛋白质表示。预训练后的模型在生物物理属性预测上表现出高准确性(斯皮尔曼相关系数达0.91),并成功捕获了蛋白质结构特征和残基可及性信息。
研究在11个实验数据集(如GFP、GB1、TEM-1等)上评估了METL的预测性能。结果显示,在小样本设置下(训练样本数≤128),METL-Local和Linear-EVE(结合进化特征的线性回归)显著优于通用模型(如ESM-2)。METL-Local在GFP和GB1数据集上表现尤为突出,其性能与Rosetta总评分和实验数据的相关性密切相关。
外推任务测试表明:
突变外推:模型对未见过氨基酸类型的预测能力较强,所有监督模型平均斯皮尔曼相关系数在-0.70至-0.78之间;
位点外推:METL-Local和ProteinNPT表现最佳(相关系数0.59和0.65),说明局部预训练数据提供了全面的位点先验知识;
组合突变预测:线性回归假设加性效应主导功能景观,监督模型平均相关系数超0.75;
评分外推:预测高评分变体是所有模型中最挑战的任务,仅GB1数据集上监督模型相关系数超0.55。
通过量化GB1模型中模拟与实验数据的相对价值,研究发现增加两类数据均可提升性能,但存在收益递减效应。例如,1,000个模拟数据点+320个实验数据点的组合与8,000个模拟数据点+80个实验数据点的组合性能相当。蛋白质大小影响信息增益模式,小蛋白质(如GB1)响应更渐进,而大蛋白质(如PTEN)存在阈值效应。
针对GB1与免疫球蛋白G(IgG)结合实验,研究开发了METL-Bind模型,在预训练中加入17个结合相关属性。结果显示,在有限实验数据下,METL-Bind显著优于标准METL-Local,尤其在结合界面残基(如谷氨酸27)的预测误差降低。这表明功能特异性模拟可提升模型对目标功能的感知能力。
为验证METL的实际应用价值,研究使用仅64个训练样本微调METL-Local,设计了20个GFP变体(含5或10个突变),分为“已观察氨基酸”和“未观察氨基酸”两种场景。实验验证显示:
“已观察”设计成功率100%(10/10变体具有荧光活性);
“未观察”设计成功率60%(6/10变体具有荧光活性),但亮度低于野生型;
随机基线变体几乎无荧光活性,表明METL设计非偶然。
mKate2荧光信号分析表明,设计变体可能通过稳定化机制间接改善功能。
METL框架成功将生物物理模拟与机器学习结合,填补了传统PLMs忽略物理机制的空白。其核心优势在于:
通过分子模拟提供可控且大规模的合成数据,克服进化数据的系统偏差;
在小样本和复杂外推任务中表现卓越,适用于实际蛋白质工程场景;
功能特异性模拟(如METL-Bind)可进一步定制模型,拓展至酶催化、构象动态等研究。
尽管METL-Global在通用表示学习上仍有改进空间(如过拟合问题),但未来可通过增加蛋白质多样性、整合进化PLMs先验知识等方式增强泛化能力。本研究为蛋白质设计提供了新范式,强调“生物物理语法”在解码蛋白质序列-功能关系中的重要性,为设计非自然蛋白质功能奠定基础。
生物通微信公众号
知名企业招聘