基于XGBoost算法与16S rRNA序列特征预测细菌在不同培养基中的生长:MediaMatch工具的构建与应用

【字体: 时间:2025年10月05日 来源:Microbial Biotechnology 5.2

编辑推荐:

  本研究利用MediaDive数据库中的2369种培养基成分与微生物16S rRNA序列,采用XGBoost算法构建了45个二分类模型,准确预测细菌在不同培养基中的生长适应性。模型准确率达76%–99.3%,其中J386、J50和J66培养基模型表现最佳。研究证实了机器学习在微生物培养基优化中的高效性与实用性,为微生物培养策略提供了智能决策支持。

  
引言
微生物培养是微生物学研究的基础环节,而选择合适的培养基是成功培养微生物的关键。传统培养基筛选方法依赖经验或试错,效率低下。近年来,机器学习方法为培养基优化提供了新思路。16S rRNA序列长约1500 bp,包含10个进化保守区和9个高变区,已广泛用于细菌分类和进化分析,其分辨率和准确性高于传统方法。
材料与方法
培养基-微生物数据集构建
研究使用MediaDive数据库,共提取2369种培养基的营养成分、培养条件及其可培养的细菌菌株信息,构建了培养基-微生物数据集。
输入数据集构建
从MediaDive中筛选出可培养100种以上细菌的45种培养基,收集26,271条细菌16S rRNA序列。使用iLearnPlus工具将序列转换为3-mer频率特征,以滑动窗口方式计算,避免序列长度偏差。以细菌能否在某培养基上生长作为标签(1/0),构建45个二分类模型的输入数据。
机器学习算法选择与评估
比较XGBoost、CART、SVM、KNN和RF五种算法。XGBoost综合表现最优,平均准确率达93.0%,精确率92.2%,召回率93.0%,F1分数92.3%,AUPRC为65.1%。其他算法如KNN和RF也表现良好,但略逊于XGBoost。
模型优化与验证
采用网格搜索(GridSearchCV)优化XGBoost参数,包括树深度(3–10)和学习率(0.01–0.4)。使用五折交叉验证确保模型泛化能力。损失函数选用二分类逻辑损失。
特征重要性提取
利用XGBoost内置get_score函数计算特征重要性,发现模型重点关注16S rRNA中的5个3-mer motif:TTT、TTG、AAT、AGT和CGG,这些motif多位于高变区,有助于区分菌株并匹配培养基。
结果
培养基成分分析
2369种培养基共含863种营养成分。常见成分包括NaCl、MgSO4·7H2O、酵母提取物等,出现频率高;而N-乙酰葡糖胺等仅出现21次,可能为特定细菌生长所必需。
模型性能
45个XGBoost模型准确率介于76%至99.3%之间,其中J386、J50和J58培养基模型AUC达100%。ROC曲线显示绝大多数模型AUC超过90%,表明分类能力优异。
实验验证
选取10种人体肠道细菌进行验证,包括Collinsella aerofaciensEubacterium ventriosum等。模型预测E. ventriosum可在104培养基生长,C. aerofaciens可在78、78+和104培养基生长。实验结果表明,C. aerofaciens在78和78+培养基中生长良好,E. ventriosum在104培养基中生长良好,与预测一致。
讨论
本研究构建的MediaMatch工具可快速、准确预测细菌培养基适配性,显著提高筛选效率并减少实验成本。16S rRNA的3-mer特征能有效捕捉菌株差异,XGBo算法在处理不平衡数据时表现优异。部分培养基(如514和830)因成分变异大导致模型性能稍低,未来需扩展数据库和模型范围以提升泛化能力。
作者贡献与资助
研究由国家重点研发计划(2022YFC2105500)、农业科技创新计划(CAAS-ZDRW202304)和国家现代农业产业技术体系(CARS-41)资助。多位作者在方法设计、数据分析、实验验证和论文撰写中做出贡献。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号