基于机器学习的细菌基因组与最适生长pH关联：理性微生物工程的基础

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Animal Science and Biotechnology》：Machine learning-based linking of bacterial genomes to optimal growth pH: a foundation for rational microbial engineering

【字体：大中小】 时间：2026年06月12日 来源：Journal of Animal Science and Biotechnology 6.5

编辑推荐：

　　背景：细菌最适生长pH对酶活性、生态位适应及合成生物学应用（如益生菌设计、青贮发酵）至关重要。传统实验方法效率低下、资源密集，且无法覆盖大多数不可培养菌群，而直接基于基因组预测该表型仍不可行，造成了阻碍微生物工程的基因组-表型鸿沟。结果：研究人员开发了Bact

背景：细菌最适生长pH对酶活性、生态位适应及合成生物学应用（如益生菌设计、青贮发酵）至关重要。传统实验方法效率低下、资源密集，且无法覆盖大多数不可培养菌群，而直接基于基因组预测该表型仍不可行，造成了阻碍微生物工程的基因组-表型鸿沟。结果：研究人员开发了BactoGenopH（http://silagedb.com/BactoGenopH/），一个预测细菌最适生长pH的网络平台。研究人员构建了包含3476个样本的高质量数据集，整合了来自BacDive数据库和同行评审文献的直接测量pH值及GTDB（Genome Taxonomy Database）的相应代表性基因组。通过Prodigal进行基因预测，HMMER进行基于Pfam的功能注释，保留高重要性基因并编码为二值存在/缺失矩阵。XGBoost（Extreme Gradient Boosting）回归模型表现出稳健性能：测试集平均绝对误差（MAE）=0.477，均方根误差（RMSE）=0.666，准确率（1-pH单位容差）为88.82%；独立验证集MAE=0.492，RMSE=0.694，准确率89.37%。SHAP（Shapley Additive Explanations）分析识别了关键pH适应基因（如Na_Ala_symp、MgtE），这些基因在离子运输和pH稳态中的作用已有充分文献记载。该免费平台支持通过FASTA序列输入或文件上传进行实时预测，并辅以数据可视化和精选数据集浏览。结论：BactoGenopH填补了对直接、基于表型的细菌最适生长pH预测的未满足需求，以稳健性能弥合了基因组-表型鸿沟。这一免费资源加速了性状驱动的微生物研究，并支持理性微生物工程。

基于机器学习的细菌基因组与最适生长pH关联：理性微生物工程的基础——论文解读

### 研究背景与问题

细菌最适生长pH是决定酶活性、代谢通量及环境生态位占据的基础表型性状，对合成生物学应用（如益生菌设计、青贮发酵）至关重要。传统实验方法（如培养法）耗时耗力，且仅适用于可培养菌群，忽略了绝大多数不可培养微生物。尽管基因组数据（如GTDB中超过10万株细菌基因组）快速积累，但直接基于基因组序列预测最适生长pH的工具仍缺失，形成了关键的基因组-表型鸿沟，阻碍了理性微生物工程的设计。此前研究虽尝试用机器学习基于基因组特征预测pH偏好，但多依赖间接pH代理（如环境丰度峰值）或预设基因集，缺乏实测表型支撑，限制了泛化能力和实际应用。因此，研究人员旨在构建一个基于实测最适生长pH与高质量基因组配对数据集的预测平台，以弥合这一鸿沟，加速合成生物学研究。

### 研究开展与结论

研究人员整合了来自BacDive数据库和已发表文献的实测最优生长pH值，与GTDB代表性基因组精确配对，经严格数据清洗后获得3476个高质量样本。利用XGBoost回归模型，结合基因预测（Prodigal）和Pfam功能注释（HMMER）生成的二值基因特征矩阵，经过特征筛选（保留5,485个高重要性基因）和贝叶斯超参数优化，训练了预测模型。SHAP分析识别了关键pH适应相关基因（如钠/丙氨酸共转运体家族Na_Ala_symp、镁离子转运蛋白MgtE）。模型在测试集上MAE=0.477、RMSE=0.666，独立验证集MAE=0.492、RMSE=0.694；在±1 pH单位容差下准确率约89%。基于该模型搭建了免费网络平台BactoGenopH（http://silagedb.com/BactoGenopH/），支持用户上传FASTA格式基因组序列进行实时预测。该研究为理性微生物工程（如益生菌筛选、青贮菌群优化）提供了可靠的工具基础，论文发表在《Journal of Animal Science and Biotechnology》。

### 主要关键技术方法

研究人员从BacDive数据库和已发表文献中收集直接测量的最优生长pH数据（共9,876条记录，经合并去重后与GTDB代表基因组配对，最终获得3,476个配对样本）。基因预测采用Prodigal（v2.6.3），功能注释采用HMMER（v3.3.2）基于Pfam数据库（v36）完成，所有可注释基因编码为二值存在/缺失矩阵（20,794个特征）。特征选择基于XGBoost的.feature_importances_函数，保留重要性得分高于均值的5,485个基因。模型核心为XGBoost回归（v2.0.3），超参数通过scikit-optimize的贝叶斯优化调优。解释性分析采用SHAP方法。网络平台后端使用Django框架，前端为HTML5/CSS3/JavaScript，部署于服务器。

### 研究结果

#### Classification and distribution of bacterial optimal growth pH（细菌最适生长pH的分类与分布）

研究人员根据文献定义将3,476株细菌分为7个pH功能组：极端嗜酸菌（pH<3.0，n=16）、中度嗜酸菌（pH 3.0–5.0，n=47）、轻度嗜酸菌（pH 5.0–6.5，n=97）、中性菌（pH 6.0–8.0，n=2,786）、轻度嗜碱菌（pH 8.0–9.0，n=396）、中度嗜碱菌（pH 9.0–10.0，n=121）、极端嗜碱菌（pH≥10.0，n=13）。结果表明中性菌占主导（80.15%），与自然和农业生态系统中中性pH生境的普遍性一致；极端pH组样本较少，反映了极端菌分离培养的技术挑战。

#### Taxonomic distribution of the dataset（数据集的分类分布）

数据集在所有生物分类层级上展示了广泛的覆盖度，涵盖了37门、78纲、213目、461科、1,492属。前50科占总样本的67%，其中丰度最高的科包括黄杆菌科（Flavobacteriaceae，7.02%）、红杆菌科（Rhodobacteraceae，5.81%）、鞘脂单胞菌科（Sphingomonadaceae，2.93%）；属水平上以黄杆菌属（Flavobacterium，2.56%）、链霉菌属（Streptomyces，1.64%）、诺卡氏菌属（Nocardioides，1.21%）为主。该分布验证了数据集在细菌多样性的代表性。

#### Phenotypic-genomic association（表型-基因组关联）

通过UpSet图分析7个pH组基因重叠，发现10,523个共享核心基因（占全部20,794个基因的50.61%）；非共享基因中，242个基因仅在嗜酸菌基因组缺失，14个仅在嗜碱菌基因组缺失，16个仅存在于中性菌基因组。核心基因可能支撑基础代谢，而非共享（附属或差异）基因可能是适应特定pH生境的主要驱动力，为基因编辑和机制研究提供了候选靶点。环状热图显示不同微生物类群主要在pH 6.0–9.0范围内富集（中性菌和轻度嗜碱菌）。

#### XGBoost model training（XGBoost模型训练）

采用分层随机抽样将数据集分为训练集（72%，n=2,502）、测试集（18%，n=626）和独立验证集（10%，n=348），以确保稀有组（如极端嗜酸/嗜碱菌）在子集中均有代表性。经两阶段优化（先基于20,794基因训练并筛选重要性高于均值的5,485个基因，再用此特征集重新训练），模型训练总耗时约1天16小时，在高性能计算集群上完成。

#### Identification of key pH-adaptation genes via SHAP analysis（通过SHAP分析识别关键pH适应基因）

SHAP分析揭示了对模型预测贡献最大的前20个基因，多数具有明确pH适应功能。例如，Na_Ala_symp（钠/丙氨酸共转运体家族）偶联钠离子运动运输丙氨酸，对维持胞内pH平衡至关重要；MgtE（跨膜镁离子转运蛋白）调节Mg²⁺及二价阳离子摄取，是缓解pH诱导渗透压的关键机制。这些基因的贡献使模型能有效区分细菌pH偏好。

#### Model performance evaluation（模型性能评估）

优化后的XGBoost模型（基于5,485个特征基因）在测试集上表现稳健：MAE=0.477、MSE=0.443、RMSE=0.666、R²=0.35；独立验证集结果一致（MAE=0.492、MSE=0.481、RMSE=0.694、R²=0.416），证实了模型的泛化能力。将其转化为伪分类任务后，在±0.5 pH单位容差下准确率约65%，±1.0 pH单位下约89%，±2.0 pH单位下约98%，表明模型具有实际应用精度。

#### BactoGenopH web platform implementation（BactoGenopH网络平台实现）

平台提供首页、服务器页（预测服务）、浏览页（数据集信息）、统计页（生物信息学图表）、方法页（分析流程）、联系页。用户可在服务器页通过粘贴或上传FASTA格式DNA序列（推荐至少100,000 bp）进行预测，可选邮件接收结果。后台自动执行基因预测（Prodigal）、功能注释（HMMER）、特征编码和模型推理，输出预测的最适生长pH。平台免费、支持桌面和移动设备，运行时间>99%。

### 总结讨论与结论翻译

讨论部分总结了BactoGenopH的优势：（1）基于实测表型，而非间接pH代理；（2）采用全基因组高重要性基因（5,485个）而非预设基因集，提升了不同细菌谱系的适用性；模型性能优于前人工作（如Ramoneda等报道MAE=0.63）。在合成生物学应用中，该平台可用于理性设计pH适应益生菌（如通过SHAP识别的MgtE增强Lactobacillus酸耐受性）和优化青贮发酵菌群（如筛选互补pH范围的乳酸菌）。局限性包括：极端pH组样本量小（极端嗜酸菌n=16、极端嗜碱菌n=13），限制了该类群预测精度；未整合温度、营养等环境因素；未覆盖古菌和真菌。未来计划通过扩充数据集、引入多变量、拓展至其他微生物类群、整合CRISPR-Cas9工程工具等方式改进。

结论翻译：BactoGenopH是一个用户友好、高准确率的网络平台，能够从基因组数据预测细菌最适生长pH。通过将预测建立在实测表型上并识别功能性关键基因，BactoGenopH弥合了基因组-表型鸿沟，为合成生物学研究提供了基础。其应用范围从益生菌设计到青贮发酵优化，与合成生物学应对全球农业挑战的变革潜力相契合。作为免费、开放的资源，BactoGenopH赋能全球研究人员加速性状驱动的微生物研究，促进可持续农业。

联系信箱：

粤ICP备09063491号

热点排行