
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于蛋白质序列与深度学习预测微生物碳氮源代谢偏好及其精准培养应用
【字体: 大 中 小 】 时间:2025年09月24日 来源:Journal of Microbiological Methods 1.9
编辑推荐:
本研究创新性地融合蛋白质序列特征(PSSM/PsePSSM)与机器学习算法,构建了微生物碳源、氮源及碳氮比(C/N)需求的预测模型,最高准确率达99.60%。通过SHAP框架增强模型可解释性,为微生物精准培养(含环境修复应用)提供了数据驱动的解决方案。
Highlight
Materials and methods
本研究整体工作流程分为三大阶段(图1)。首先,通过系统性物种筛选、培养基检索及蛋白质序列获取完成数据库构建,随后进行注释与过滤以保证数据质量。利用位置特异性评分矩阵(PSSM)和伪位置特异性评分矩阵(PsePSSM)对序列特征进行编码,并采用主成分分析(PCA)实现统一降维。其次,模型构建阶段将数据集划分为训练集与测试集,并运用多种机器学习算法(如随机森林、支持向量机、XGBoost和LightGBM)训练碳源、氮源和C/N比的分类模型。最后,通过SHAP框架解析模型预测结果,识别关键特征及其相互作用。
Analysis of medium components from the collected data
共收集61种微生物培养基,其中多数为半合成培养基,主要成分为碳源、氮源、无机盐和生长因子。培养基间的差异主要源于这些组分的不同组合。分析显示,86.8%的培养基含葡萄糖,23.1%含淀粉,二者为优势碳源;另有8.5%含其他糖类如二糖(蔗糖、麦芽糖、乳糖)和三糖(棉子糖)。氮源方面,酵母提取物(78.3%)、蛋白胨(60.2%)和硫酸铵(42.6%)最为常见。C/N比分析进一步揭示了微生物营养策略的多样性。
Conclusions
本研究通过将多维序列特征转化为高维数值矩阵,并应用降维技术实现标准化表征,建立了微生物蛋白质序列与机器学习模型之间的数字化接口。该框架成功用于预测微生物对不同碳源、氮源及C/N比的偏好。
生物通微信公众号
知名企业招聘