ProtMamba:基于Mamba架构的同源感知非比对蛋白质状态空间模型

【字体: 时间:2025年06月16日 来源:Bioinformatics 4.4

编辑推荐:

  研究人员开发了ProtMamba——一种基于Mamba架构的同源感知但无需比对的蛋白质语言模型,解决了传统多序列比对(MSA)方法的局限性。该模型通过长上下文处理能力和高效的训练策略,在蛋白质生成、功能基序修复、适应性预测和无序区域建模中表现优异,为蛋白质设计提供了新工具。

  

蛋白质是生命的基本构建模块,其功能由氨基酸序列决定。近年来,蛋白质语言模型在解析序列-功能关系和设计新蛋白方面展现出巨大潜力。然而,现有模型大多依赖多序列比对(MSA)来捕捉同源蛋白的进化信息,而MSA构建存在不完善性,且计算成本高昂。此外,传统注意力机制模型难以处理长序列上下文,限制了模型对大规模同源信息的利用。

瑞士洛桑联邦理工学院(EPFL)和瑞士生物信息学研究所的研究团队开发了ProtMamba,一种基于Mamba架构的同源感知非比对蛋白质语言模型。该模型通过结合自回归建模和掩码语言建模(MLM)的填充中间目标(FIM)训练策略,实现了高效的蛋白质序列生成、基序修复和适应性预测。研究结果表明,ProtMamba在生成与天然蛋白结构一致的序列方面优于现有模型(如EvoDiff-MSA),其预测的突变效应与实验数据高度相关(Spearman ρ=0.432),且对难以比对的无序区域表现出更好的建模能力。相关成果发表在《Bioinformatics》上。

关键技术方法包括:1)使用未比对同源序列的拼接作为输入;2)基于Mamba的状态空间模型架构,支持长上下文处理;3)结合自回归和FIM目标的混合训练策略;4)引入序列级位置嵌入增强位置感知。训练数据来自OpenProteinSet的26.8万个非冗余蛋白簇,包含5.08亿条序列。

研究结果
ProtMamba受益于长上下文
模型困惑度随上下文序列数量增加而降低,表明长上下文能有效提升预测准确性。当处理超过13万token的上下文时,模型仍保持稳定性能。

ProtMamba可自回归生成新序列
通过同源条件生成,模型产生的序列在结构评分(pLDDT=0.75±0.13)和进化距离(与天然序列最小汉明距离0.56±0.10)上与天然蛋白相当。如图3所示,低困惑度生成序列的结构指标与天然序列无显著差异。

ProtMamba能修复功能基序
对三个含实验解析结构的蛋白进行基序修复测试,生成的100个候选序列均保持原生构象(TM-score>0.8,RMSD<2?)。图4展示了修复基序的预测结构与原始结构的叠合情况。

ProtMamba预测突变效应
在ProteinGym基准测试中,模型预测突变效应的Spearman ρ达0.432,优于同等规模的单序列模型(ESM-2 150M),且计算效率显著提升(评分全部变体仅需10分钟)。

ProtMamba精准建模无序区域
相比MSA Transformer,模型对无序区域的负对数似然分布更接近有序区域(KL散度0.011 vs 0.038),且计算速度快60倍(7分钟 vs 7.5小时)。

结论与意义
ProtMamba通过状态空间模型的高效长序列处理能力,实现了同源信息的无比对利用。其FIM训练策略不仅支持全序列生成,还能针对特定区域进行精确编辑,为蛋白质工程提供了灵活工具。在突变效应预测方面,模型仅需107M参数即达到与700M参数模型(Tranception L)相当的精度,且推理速度提升两个数量级。对无序区域的优异建模能力,为研究这类传统方法难以处理的蛋白区域开辟了新途径。未来,结合结构字母表或基因本体(GO)术语的扩展可能进一步释放模型的潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号