InterPLM:通过稀疏自编码器在蛋白质语言模型中发现可解释的特征

《Nature Methods》:InterPLM: discovering interpretable features in protein language models via sparse autoencoders

【字体: 时间:2025年10月01日 来源:Nature Methods 32.1

编辑推荐:

  蛋白质语言模型(PLM)的可解释性分析通过稀疏自编码器从ESM-2嵌入中提取生物学概念特征(如结合位点、结构基序),发现其通过叠加态存储概念且规模越大越能捕捉复杂模式。开发大语言模型辅助的自动化解释方法,验证特征对缺失数据库注释的识别及序列生成引导能力,证实PLM表示可分解为可解释组件。

  

摘要

尽管蛋白质建模和设计方面取得了成功,但蛋白质语言模型(PLMs)的内部机制仍不为人所充分理解。在这里,我们提出了一个系统框架,利用稀疏自编码器从PLMs中提取并分析可解释的特征。通过在ESM-2嵌入上训练稀疏自编码器,我们识别出了数千个可解释的特征,这些特征突出了生物学概念,包括结合位点、结构基序和功能域。单个神经元在概念对齐方面的表现明显较差,这表明PLMs以某种叠加的方式存储概念。这种叠加现象在不同规模的模型中都存在,而且更大的PLMs能够捕捉到更多可解释的概念。除了已知的注释外,ESM-2还能在进化上不同的蛋白质家族之间发现一致的模式。为了系统地分析这些众多特征,我们开发了一种基于大型语言模型的自动化解释方法,用于特征描述和验证。在实际应用中,这些特征可以准确识别数据库中缺失的注释,并实现对序列生成的定向控制。我们的结果表明,PLM的表示可以分解为可解释的组成部分,从而证明了从机制角度解释这些模型的可行性和实用性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号