《Methods in Ecology and Evolution》:Discovering data-driven microbial growth models with symbolic regression
编辑推荐:
将数学模型与经验测量的微生物生长联系起来仍然具有挑战性,因为许多基于不同理论方法的竞争模型都能拟合观测数据。因此,研究人员开发了一种方法,仅从微生物数据自动提出生长模型。研究人员利用一个已知资源上大肠杆菌(E. coli)生长的可用数据集验证了该方法,并研究了
将数学模型与经验测量的微生物生长联系起来仍然具有挑战性,因为许多基于不同理论方法的竞争模型都能拟合观测数据。因此,研究人员开发了一种方法,仅从微生物数据自动提出生长模型。研究人员利用一个已知资源上大肠杆菌(E. coli)生长的可用数据集验证了该方法,并研究了14个物种在富含培养基的不同浓度下的生长情况。本质上可解释的符号回归(symbolic regression)方法直接从生长数据推断显式动力学模型。原生使用符号回归时并不偏爱生物学可解释的模型,但研究人员发现累积种群增益(cumulative population gain)是一个比种群大小更有信息量的机器学习特征。随机森林(Random Forest)机器学习使研究人员能够将此发现与恒定的单位资源消耗率近似联系起来。这表明常规实验中测量的生长曲线下面积(area under the growth curve, AUC)提供了控制微生物生长的有效资源动力学信息。最后,研究人员利用理论见解指导符号回归算法,并偏向于生物学可解释的模型。总体而言,研究人员发现,在数据拟合、简约性和生物学相关性之间取得平衡,有利于最简单的线性近似和基于Monod动力学(Monod dynamics)的模型,这些模型涉及一个或两个潜在资源。因此,研究人员从微生物分批培养中读取生长法则的方法为数据驱动建模提供了见解。
论文解读文章:通过符号回归发现数据驱动的微生物生长模型
**研究背景与问题**
微生物生长是微生物生态与进化的核心过程,其定量理解对于公共卫生(如抗生素耐药性)和生物技术应用至关重要。然而,将数学模型与经验测量的微生物生长连接仍面临挑战:大量基于不同理论假设的竞争模型均能拟合观测数据,导致模型不可发现性问题。传统方法预先假设一个模型家族再拟合数据,这使得初始模型选择本身免受数据批判,无法从数据中无偏地生成假设。此外,资源-消费者模型虽在生物学上更合理,但模型复杂度常远超实验证据,且观测数据通常只覆盖种群大小而非资源动态,导致宏观生长表型与微观机制脱节。因此,亟需一种可解释的自动化方法,从实验数据中无偏地发现动力学生长模型,以提出数据驱动的零假设。
**研究方法**
研究人员在《Methods in Ecology and Evolution》上发表研究,利用符号回归(symbolic regression)自动推断微生物生长的显式动力学模型。关键技术方法包括:①符号回归(PySR库):搜索数学表达式空间,从种群大小或累积种群增益(cumulative population gain)数据中预测单位生长速率,并通过表达式模板(如引入生理调整函数和资源消耗近似)加入理论约束;②随机森林回归(Scikit-learn):评估不同特征集(种群大小、累积种群增益、时间、初始浓度)对预测单位生长速率的贡献,并验证累积种群增益作为更优特征的理论依据;③数据来源:实验数据来自14种细菌(HAMBI集合)在Reasoner's 2A(R2A)富含培养基中20个浓度梯度的分批培养(4个生物学重复),另使用公开数据集(Held et al., 2024)中已知资源(葡萄糖和铵)上大肠杆菌(E. coli)的生长曲线进行验证。
**研究结果**
**3.1 无约束符号回归预测生长**
研究人员发现,基于累积种群增益(
G)的模型在拟合性能上系统性地优于基于种群大小(
N)的模型(图2)。但无约束算法推断的模型仅优化拟合,缺乏生物学可解释性。
**3.2 累积种群增益允许黑箱预测生长**
研究人员通过理论推导(质量作用定律)和随机森林实验确认:资源消耗近似为恒定单位速率,这赋予累积种群增益核心作用。使用
G替代
N显著提高了随机森林回归器的预测性能(图3),并减少了过拟合(表1),这与理论预期一致。
**3.3 约束符号回归推断生物学生长模型**
研究人员采用两种理论引导的表达式模板(模板7和模板8)进行符号回归。
**3.3.1 推断已知资源的不可替代性**:在已知资源(葡萄糖和铵)独立变化的大肠杆菌数据中,符号回归正确识别出乘法型双资源Monod动力学模型(图4),表明资源不可替代,与生物学事实一致。
**3.3.2 推断未知资源的有效维度**:在R2A丰富培养基的14种细菌数据中,符号回归生成了1068个模型。经生物学可解释性筛选后,大多数物种的最佳模型为一维线性或一维Monod动力学模型(表2);少数物种需二维模型(线性×Monod或Monod×Monod)。复杂模型带来的拟合改善有限,表明线性模型是良好的一阶近似,Monod模型以较低参数成本提升拟合。
**讨论与结论**
讨论部分指出:本研究用无约束符号回归无法保证生物学相关性,但累积种群增益提供了间接观测潜在资源空间的有效手段。结合理论约束后,符号回归从数据中自动推断了有效的生长函数,验证了动态资源-消费者模型(Monod动力学)在多种分批培养中的适用性。有效资源维度(有效资源空间的最小独立资源数)通常很低,即使化学成分复杂的培养基也是如此。符号回归不能视为恢复任意生成模型的工具,而是构建足以再现观测的模型,其输出需结合已有知识解释。研究中提出的模型均为可观测变量,其翻译为潜在资源空间需依赖理论假设。最后,研究结论翻译如下:
“本研究表明,符号回归提供了一种有前景、实验可行且可扩展的方式,用于分析微生物学常规实验,以推断生长的零模型和有效资源维度。与传统方法不同,研究人员首先基于数据构建候选模型队列,再评估其理论和生物学相关性。当资源已知且独立变化时,符号回归能告知其代谢相互作用;当资源未知时,它能提示每个物种感知的有效资源数量。研究人员发现假设恒定单位资源消耗率是合理的,基于此,预计动态Monod模型能捕捉大多数物种在分批单培养中的生长行为。微生物学家现在可以利用实验测量的生长曲线评估这一假设,而资源消耗动力学的知识可指导对微生物群落相互作用的预测与控制。”