基于降维氨基酸与语言模型融合的蛋白质热稳定性预测新策略

【字体: 时间:2025年05月27日 来源:Food Bioscience 4.8

编辑推荐:

  本研究针对蛋白质热稳定性预测中序列复杂性高、特征提取不充分的问题,创新性地将非负矩阵分解降维氨基酸方法(RAANMF)与Transformer语言模型(ProtBert/ProtT5)相结合。结果表明,降维序列特征与原序列特征互补集成可显著提升预测性能,为工业酶设计和蛋白质工程提供了新工具。

  

在生物医药和工业酶设计领域,蛋白质热稳定性(protein thermostability)是决定其功能持久性的关键指标。然而,传统基于氨基酸理化性质的方法难以捕捉序列中复杂的残基间关系,而现有语言模型直接处理20种天然氨基酸仍面临计算复杂度高的问题。如何平衡序列简化与生物信息保留,成为提升预测精度的核心挑战。

中国某高校的研究团队在《Food Bioscience》发表论文,提出将新型降维氨基酸方法RAANMF(基于非负矩阵分解)与预训练语言模型相结合的解决方案。通过系统评估Word2Vec、ProtBert、AminoBERT和ProtT5在Lin和Charoenkwan数据集上的表现,发现Transformer架构的ProtBert和ProtT5对降维序列特征提取最具优势。更关键的是,原始序列与降维序列特征的融合使预测准确率产生显著提升,这为热稳定蛋白的智能化设计开辟了新路径。

研究采用三大关键技术:1)RAANMF降维方法将20种氨基酸聚类为功能群组;2)四种语言模型(Word2Vec/ProtBert/AminoBERT/ProtT5)的特征提取;3)机器学习算法对Lin数据集(1329个嗜热蛋白和1250个非嗜热蛋白)和Charoenkwan数据集的特征融合分析。

【Prediction performance before and after sequence reduction based on language model】
实验显示,在Lin数据集上,ProtT5对原始序列的预测准确率最高(83.7%),而RAANMF降维后ProtBert表现最优(81.2%)。特征融合策略使准确率进一步提升至85.9%,证实降维特征与原始特征的互补性。

【Conclusion】
Transformer模型对降维序列的强表征能力被首次验证,其中ProtBert对降维特征的适应性优于ProtT5。该研究不仅建立了RAANMF与语言模型的协同框架,其特征融合策略更为其他蛋白质属性预测提供了范式转移。

这项工作的科学价值体现在三方面:其一,RAANMF在保留生物意义的前提下降低了语言模型的计算负担;其二,揭示了降维序列中仍存的关键热稳定性决定因子;其三,为工业酶理性设计提供了可解释性更强的特征工程方案。正如作者指出,该方法未来可扩展至其他蛋白质工程场景,如催化活性预测或蛋白质-配体相互作用研究。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号