综述:进化尺度建模蛋白质语言模型的下游应用综述

《Quantitative Biology》:A survey of downstream applications of evolutionary scale modeling protein language models

【字体: 时间:2025年09月23日 来源:Quantitative Biology 1.4

编辑推荐:

  本综述系统梳理了进化尺度建模(ESM)系列蛋白质语言模型(PLMs)的最新进展与应用,涵盖结构预测、功能注释、相互作用预测、突变效应评估及蛋白质设计等核心领域。文章详细分析了ESM-1b、ESM-2、ESMFold等模型的架构特点与技术优势,并探讨了多模态融合、对比学习等前沿方法在蛋白质研究中的创新应用,为生物医学研究者提供了全面技术参考与发展趋势展望。

  

进化尺度建模蛋白质语言模型的技术演进与应用全景

模型体系与发展历程

进化尺度建模(ESM)系列作为蛋白质语言模型(PLMs)的重要代表,通过大规模无标注蛋白质序列训练,成功捕获了蛋白质进化过程中的突变与保守模式。ESM-1b作为奠基性模型,采用BERT风格的Transformer架构和掩码语言建模(MLM)目标,在UniParc的2.5亿条序列上训练而成,验证了缩放定律在PLMs中的有效性。后续发展的ESM-MSA-1b通过引入多序列比对(MSA)注意力机制,实现了蛋白质接触图与二级结构的高精度推断;ESM-1v专注于变异效应预测(VEP);ESM-IF1则开创了逆折叠设计的新范式。

ESM-2的推出标志着通用蛋白质模型的重大突破,其参数量从8M扩展到15B,成为当前蛋白质科学中最广泛使用的基础模型。同期发布的ESMFold作为端到端单序列结构预测器,在特定场景下达到与AlphaFold2相当的精度。最新一代ESM3实现了序列、结构与功能的联合推理,将蛋白质设计推向全新高度。这些模型的时序发展与规模演进清晰地展现了从单一序列建模到多模态协同的技术跃迁。

核心技术方法与创新应用

ESM模型的下游应用主要围绕四大技术路径展开:直接应用特定功能模型(如ESM-IF1的固定骨架设计)、特征提取与任务模型集成、参数高效微调(PEFT)以及多模态信息融合。

在特征提取方面,ESM嵌入向量可作为机器学习分类器(如支持向量机、随机森林)的输入特征,或作为深度学习网络(LSTM、CNN、注意力机制)的初始表征。ESM-GearNet等研究通过图神经网络融合结构信息,显著提升了功能预测性能。参数高效微调方法中,适配器调整、提示调优和低秩适应(LoRA)成为主流技术,其中LoRA在信号肽分类任务中表现尤为突出。

多模态融合呈现出三大技术路线:将序列表征作为图神经网络残基特征、序列与结构表征的拼接融合,以及通过交叉注意力实现模态交互。对比学习策略如ConPLex通过潜在空间投影优化蛋白质-药物相互作用预测,而CLIP框架的引入使ProtST等模型实现了零样本蛋白质分类与功能检索。值得关注的是,SaProt通过3Di结构字母表创新性地将结构信息编码为序列形式,为多模态预训练提供了新思路。

蛋白质结构预测的突破性进展

ESM在蛋白质结构预测领域展现出多层级应用能力。在二级结构层面,NetSurfP-3.0利用ESM-1b预测溶剂可及性、结构无序性和主链二面角,达到最先进性能。接触图预测中,ESM-1b的注意力图谱直接揭示了残基空间邻近关系,为三维结构重建提供关键约束。

在三级结构预测领域,OmegaFold首次实现仅从一级序列预测高分辨率结构,在孤儿蛋白质和抗体建模方面表现出色。ESMFold凭借其速度优势,在大规模宏基因组序列结构表征(ESM宏基因组图谱)中发挥重要作用。比较研究表明,基于PLM的方法(ESMFold、RGN2、trRosettaX-Single等)通过隐式学习进化信息替代MSA需求,在保持精度的同时显著提升预测效率。特别值得注意的是,ESMFold在从头设计蛋白质的结构预测方面展现独特优势,为合成生物学研究提供有力工具。

功能预测与相互作用研究的深化

ESM在功能预测领域取得系列突破。酶学委员会(EC)编号预测和基因本体(GO)术语预测作为多标签分类任务,成为评估序列表征质量的基准任务。ProtST通过联合训练蛋白质语言模型与生物医学语言模型,实现了基于文本描述的功能检索与零样本分类。NetGO 3.0利用未注释蛋白质信息,显著提升自动功能预测性能。

在亚细胞定位预测方面,ProtGPS成功预测人类蛋白质的区室定位,并指导核仁选择性组装的新型蛋白质设计。NetSolP直接从序列预测大肠杆菌表达蛋白质的溶解性,展现出卓越的跨数据集泛化能力。

蛋白质相互作用预测涵盖蛋白-蛋白(PPI)、蛋白-配体(PLI)和药物-靶点(DTI)相互作用。DeepInter在蛋白质复合物残基-残基接触预测中达到最先进水平,而DSMBind提出无需实验训练数据的无监督结合能预测框架。在抗原-抗体相互作用、抗体设计和酶-底物识别等特定场景中,ESM模型通过提供高质量蛋白质表征,显著提升预测精度。

变异效应预测与定向进化

ESM在变异效应预测方面展现独特优势,其通过进化模式学习实现突变功能影响的无监督评估。ProteinGym构建了大规模基准测试套件,系统评估不同模型在蛋白质适应性预测中的表现。研究表明,ESM模型在不依赖显式同源信息的情况下,能够有效预测编码变异的功能后果。

在定向进化领域,ESM模型通过序列优化推动抗体亲和力成熟和酶工程发展。EvoPlay采用自博弈强化学习框架,结合AlphaFold2作为结构代理,设计出亲和力提升7.8倍的光蛋白变体。实验验证表明,ESM指导设计的序列在保持结构稳定性的同时,显著增强功能特性。

蛋白质设计的革命性突破

ESM推动蛋白质设计从约束生成向非约束生成拓展。逆折叠任务中,ESM-IF1通过图向量门控神经网络(GVP-GNN)与Transformer的混合架构,实现给定骨架的序列设计。ProLLaMA利用ESM-2进行无条件可控蛋白质序列生成,而EvoDiff专注于生成具有内在无序区域的蛋白质。

ESM3的出现标志着蛋白质设计范式的根本变革,其通过序列-结构-功能的联合推理,实现多条件可控的蛋白质生成。在抗体CDR设计、配体结合蛋白质设计等应用场景中,ESM模型展现出强大潜力。AntiFold在CDR区域的序列恢复率方面达到最先进水平,设计序列与实验解析结构高度一致。

技术挑战与未来展望

尽管ESM系列取得显著进展,仍面临数据偏差、计算资源需求和高可解释性等挑战。UniProt数据的物种不平衡性限制模型在病毒等少测序物种的应用,而Transformer模型的O(n2d)时间复杂度对长序列处理构成计算瓶颈。

未来发展方向包括:增强模型可解释性 through 注意力可视化与梯度分析;改进与实验数据的协同整合;拓展在合成生物学与系统生物学中的应用范围。随着ESM3等新一代模型的发展,蛋白质研究正进入多模态协同设计的新时代,为生物医学研究和药物开发提供前所未有的机遇。

该综述系统展示了ESM系列模型如何重塑蛋白质研究范式,从单一序列分析迈向多模态智能设计,为生命科学和医学研究提供强大的计算基础设施。

相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号