编辑推荐:
在微生物研究领域,准确测定微生物最大生长速率困难重重。为破此难题,研究人员开展 “Improved maximum growth rate prediction from microbial genomes by integrating phylogenetic information” 研究。结果显示,Phydon 框架可提升预测精度,还构建了相关数据库。这为微生物研究及生态模型构建意义重大。
在神秘的微观世界里,微生物就像一群忙碌的小工匠,它们在全球营养循环中发挥着关键作用,其最大生长速率更是生态系统模型中的关键参数。然而,要精确测量这些小不点儿的最大生长速率,却面临着巨大的挑战。一方面,在实验室和野外环境中,许多微生物的培养难度极高,已知能成功培养的细菌和古菌物种不足 1% 。另一方面,即使是已经培养出来的微生物,其最大生长速率差异也极大,种群倍增时间从几分钟到几天不等,这让测量工作变得异常复杂。
在这样的困境下,研究人员迫切需要新的方法来突破。来自美国卡内基科学研究所(Carnegie Institution for Science)和石溪大学(Stony Brook University)的研究人员开展了一项极具意义的研究。他们致力于通过整合密码子使用偏好(CUB)和系统发育关系,开发一种更精准的微生物最大生长速率预测方法,相关研究成果发表在《Nature Communications》上。
研究人员在此次研究中主要运用了以下关键技术方法:一是从公共数据库获取数据,如从 Madin 等人的特征数据库收集有记录倍增时间的物种数据,从基因组分类数据库(GTDB)获取细菌和古菌的系统发育树;二是采用系统发育分块交叉验证,通过在系统发育树上不同深度切割来划分训练集和测试集,评估模型性能;三是开发 R 包 Phydon,整合不同预测模型,综合考虑基因组和系统发育信息预测最大生长速率 。
系统发育信息对最大生长速率预测模型的影响
研究人员首先整理了包含 548 个物种的数据集,这些物种的最大生长速率呈现出一定程度的系统发育信号,但并不十分强烈。通过系统发育分块交叉验证分析,研究人员评估了不同预测方法在不同系统发育距离下的性能。结果发现,基于密码子使用偏好的 gRodon 模型在区分快速和慢速生长物种方面表现稳定,但估计值存在显著差异。而系统发育预测方法,如最近邻模型(NNM)和基于系统发育独立对比的布朗运动模型(Phylopred),在训练集和测试集的最小系统发育距离减小时,准确性会提高。并且,对于快速生长物种,Phylopred 模型在系统发育距离较小时表现更优;对于慢速生长物种,gRodon 模型则更胜一筹。
Phydon:结合 gRodon 模型和系统发育预测模型
基于上述发现,研究人员开发了结合 gRodon 模型和系统发育预测模型的新模型 Phydon。该模型有算术平均模式和几何平均模式两种运行模式,通过回归模型确定两种模型预测结果的权重。研究表明,算术平均模式在均方误差(MSE)得分上略胜一筹,因此被设为 Phydon R 包的默认模式。与单个模型相比,Phydon 模型在大多数系统发育距离下具有更低的 MSE,预测准确性更高。
用于扩增子分析的综合生长速率数据库
研究人员利用 Phydon 对基因组分类数据库(GTDB)v220 中的物种代表性基因组进行注释,构建了一个改进的最大生长速率数据库。该数据库纳入了温度校正信息,涵盖 111,034 个温度校正后的最大生长速率预测值。通过这个数据库,研究人员发现不同微生物门在生长策略上存在明显差异,并且最大生长速率的估计值呈现双峰分布。同时,随着系统发育距离增加,Phydon 和 gRodon 的预测结果趋于一致。
在微生物研究领域,这项研究意义非凡。Phydon 为未培养微生物的最大生长速率提供了准确预测,有助于深入探索未培养微生物在生态系统中的作用,并将其合理纳入生态系统模型。此外,研究还揭示了分类信息和基于基因的推断在预测微生物生长速率方面的平衡关系,为微生物学研究开辟了新的思路,无论是对微生物学家提出研究假设,还是对建模人员构建微生物群落动态模型,都提供了有力的支持。
研究人员通过整合基因组和系统发育信息,成功开发出 Phydon 框架,在微生物最大生长速率预测方面取得了重要突破。尽管该方法在应用于经历快速性状进化的分类群时存在一定局限性,但它依然为微生物研究带来了新的方向和方法。未来,随着研究的深入,有望进一步完善这一方法,更深入地揭示微生物生长的奥秘,推动微生物学及相关领域的发展。