基于参数高效微调的结构信息注入提升蛋白质语言模型性能

【字体: 时间:2025年07月01日 来源:Computers in Biology and Medicine 7.0

编辑推荐:

  针对蛋白质语言模型(PLMs)缺乏结构信息整合的问题,研究人员提出结构信息注入微调(SI-Tuning)方法,通过角度嵌入和距离图注意力注入策略,在仅训练2%参数条件下使ESM-2模型在DeepLoc二元分类(93.95%)和金属离子结合(76.05%)任务中超越SaProt,为生物医学应用提供了高效的结构感知解决方案。

  

蛋白质作为生命活动的执行者,其三维结构决定功能的特性一直是生物医学研究的核心。尽管蛋白质语言模型(Protein Language Models, PLMs)如ESM家族通过大规模序列预训练取得了显著进展,但仅依赖氨基酸序列的建模方式存在"结构盲区"——这就像试图仅通过文字描述还原立体雕塑的细节。更棘手的是,现有整合结构信息的方法如SaProt需要完全重新训练模型,计算成本高昂。如何在保留PLMs强大序列分析能力的同时,低成本地赋予其结构理解能力,成为亟待解决的关键科学问题。

针对这一挑战,深圳的研究团队创新性地提出了结构信息注入微调(Structure information Injecting Tuning, SI-Tuning)框架。该工作通过参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)技术,将AlphaFold2预测的蛋白质结构信息动态注入预训练PLMs,在《Computers in Biology and Medicine》发表了突破性成果。研究团队采用双路径注入策略:对单残基级别的二面角信息通过自门控模块生成角度嵌入,与序列嵌入融合;对残基间的距离图信息则通过径向基函数转换后注入注意力矩阵。结合低秩适配器(LoRA)技术,仅需微调1.8%的参数量即可实现结构信息整合。

Method
研究以650M参数的ESM-2为基础模型,从AlphaFold2获取蛋白质的二面角(φ/ψ/ω)和残基距离矩阵作为结构特征。角度信息经多层感知机编码后,通过门控机制与原始词嵌入融合;距离矩阵通过径向基函数转换为10维特征后,以可学习权重注入Transformer的注意力得分矩阵。所有结构注入模块与LoRA适配器联合训练,保持主模型参数冻结。

Experiments
在DeepLoc亚细胞定位二元分类任务中,SI-Tuning以93.95%准确率超越全参数微调的ESM-2(91.96%)和结构预训练的SaProt(92.3%)。金属离子结合预测任务中,其76.05%的准确率较基线提升4.49%。消融实验显示,同时使用角度和距离信息的性能最优,单独使用角度或距离分别获得72.11%和74.83%的准确率。参数分析表明,SI-Tuning仅引入1.8M可训练参数,是完整微调参数的1/50。

Conclusion
该研究开创性地实现了结构信息与序列语言模型的有机融合,SI-Tuning框架通过三个维度推动领域发展:方法学上证明了PEFT技术整合多模态生物数据的可行性;技术上开发的角度/距离双注入机制为PLMs结构感知提供了新范式;应用层面显著提升了金属结合位点等结构敏感任务的性能。特别值得注意的是,该方法在保持预训练模型通用性的同时,将结构相关任务性能提升至超越专用结构模型水平,为蛋白质工程、药物设计等生物医学应用提供了高效工具。研究开源的代码库更降低了领域内应用门槛,有望成为PLMs在结构生物学研究中的标准微调方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号