基于预训练蛋白质语言模型嵌入的固氮酶活性预测模型NFEmbed:推动生物肥料开发的机器学习新方法

【字体: 时间:2025年08月24日 来源:Bioinformatics Advances 2.8

编辑推荐:

  本研究针对合成氮肥过度使用导致的环境问题,开发了基于蛋白质语言模型(PLM)嵌入的NFEmbed-C/R堆叠集成模型,通过ESMC_600M等特征筛选和增量互信息(IMI)算法优化,实现了对微生物固氮酶活性的高效预测。分类模型NFEmbed-C测试集灵敏度达0.949,回归模型NFEmbed-R的R2达0.783,较现有方法提升显著。SHAP分析揭示了nifX、rnfA等关键基因及Trp、His等氨基酸残基的作用机制,为生物肥料开发提供了新工具。

  

全球粮食安全面临严峻挑战,2023年约7.33亿人面临饥饿,而合成氮肥的过度使用导致土壤退化、富营养化等环境问题。固氮微生物作为生物肥料的潜力巨大,其核心酶——固氮酶(nitrogenase)能将大气氮转化为氨,但该酶活性预测存在瓶颈。传统方法Carmna模型在特征利用和集成策略上存在局限,特别是未能充分挖掘不同蛋白质语言模型(Protein Language Model, PLM)嵌入的潜力。

为解决这些问题,Md Muhaiminul Islam Nafi团队开发了NFEmbed模型体系。研究收集了402个样本的固氮酶活性数据(单位:nmol C2H4/mg蛋白/小时),通过增量特征选择(IFS)确定最优特征组合:分类任务采用"ESMC_600M, CT, RSCU, Copy_number, Gene_distance",回归任务采用"ESMC_600M, Gene_distance, Euclidean_distance, Copy_number, Expression"。基于增量互信息(IMI)选择基学习器,最终构建了KNN-RF堆叠的NFEmbed-C分类模型和DTR-XGBR-SVR堆叠的NFEmbed-R回归模型。

关键技术方法

  1. 1.

    使用ESMC_600M等6种PLM嵌入提取蛋白质序列特征

  2. 2.

    开发增量特征选择(IFS)算法优化特征组合

  3. 3.

    基于互信息(IMI)的堆叠集成架构设计

  4. 4.

    SHAP可解释性分析揭示关键生物标志物

  5. 5.

    5折交叉验证结合30次重复实验确保稳健性

主要研究结果

3.1 特征选择结果

ESMC_600M嵌入在5折CV中表现最优,分类任务F1达0.854,回归任务R2达0.531。30次重复实验验证了其稳定性(图2)。

3.2 模型选择结果

KNN基学习器在分类任务中互信息最高(0.3878),DTR-XGBR组合在回归任务达0.7521。RF和SVR分别作为最优元学习器(图3)。

3.3 与现有方法比较

NFEmbed-C测试集灵敏度(0.949)比Carmna提高8.8%,MCC达0.784;NFEmbed-R的R2(0.783)提升40.6%,MSE降低51%(表6-7)。

3.4 SHAP可解释性分析

关键基因nifX(FeMo-co合成)、rnfA(电子传递)和氨基酸Trp-444(FeMo-co稳定)被识别为重要特征(图7-8)。BLP特征在堆叠模型中贡献度最高(图9)。

结论与意义

该研究通过创新性地整合PLM嵌入与堆叠集成学习,建立了目前最精准的固氮酶活性预测体系。t-SNE可视化显示NFEmbed-C能有效分离高/低活性样本(图4),回归分析证实NFEmbed-R预测值与实验值高度线性相关(图6)。发现的nifX、rnfA等关键靶点为合成生物学改造固氮菌提供了新方向,而Trp、His等残基的识别有助于理解酶活性调控机制。开源工具NFEmbed为生物肥料开发提供了高效筛选平台,相关成果发表于《Bioinformatics Advances》。

研究仍存在数据量有限、未进行PLM微调等局限,未来可通过扩大样本规模、整合AlphaFold结构特征等进一步优化。该工作展示了人工智能在可持续农业中的转化应用潜力,为减少合成氮肥依赖提供了新思路。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号