发酵过程本质上非常复杂,表现出强烈的非线性、时变动态以及对环境和操作条件的敏感性。尽管生物技术取得了进展,工业需求也在增加,但一致的控制仍然是一个主要挑战——这主要是由于未测量的变量、批次间的变异性以及关键指标(如底物和产物浓度)的在线传感有限[1]、[2]、[3]。这些限制使得发酵系统无法达到其他工业过程那样的自动化和控制成熟度。随着生产要求的提高和监管要求的加强,开发准确可靠的数学模型变得至关重要。这样的模型是理解系统行为、补偿未测量状态以及实现先进监测和控制策略的重要工具[4]、[5]。
数学建模建立了输入变量(例如菌株浓度、培养基组成、环境因素)和输出变量(例如生物量、产物浓度、pH值、温度)之间的定量关系。根据建模目标,可以采用不同复杂性和抽象程度的模型。
白箱模型基于第一性原理,依赖于对潜在物理、化学和生物过程的详细机制知识。它们通常包含物质和能量平衡,并描述细胞生长、底物消耗和产物形成等现象。这些模型可以是动态的,通过微分方程表示,也可以是静态的,通过代数关系表达。相比之下,黑箱模型不包含机制洞察,而是捕捉过程输入(例如温度、pH值、溶解氧、进料速率)和输出(例如生物量、底物浓度、产物水平)之间的经验关系。使用统计或机器学习方法构建的黑箱模型具有灵活性和易用性,尤其是在第一性原理知识有限的情况下[6]。
在这两种范式之间是灰箱模型,它们将简化的机制组件与数据驱动的公式结合起来。这些模型通常包括基于守恒定律和实验数据的微生物生长、产物形成和底物利用的经验子模型。虽然参数估计依赖于数据,但模型结构仍保留了物理可解释性,使得灰箱模型在分析和控制任务中具有吸引力[7]。
鉴于发酵系统的显著非线性、时变行为、高阶动态和固有的不确定性,完全基于机制的建模往往不切实际。因此,黑箱和灰箱方法被广泛采用[8]、[9]、[10]、[11]。然而,它们的成功在很大程度上取决于用于训练和验证的高质量批次数据的可用性。当数据表现出系统性变异性时,模型的准确性和泛化能力会受到影响。除了生物过程研究之外,最近的工作表明,灵活的模型能够捕捉复杂的非线性模式和不确定性,包括神经网络[12]、[13]、[14]、高斯过程回归[15]、[16]、[17]、图形模型[18]、[19]和集成方法[20]、[21]。同时,关于批次过程的研究通过基于协整的建模和慢特征分析解决了非平稳性和长期漂移问题,这可以在变化条件下改善监测[22]、[23]。然而,这些方法并没有明确消除批次之间的系统差异。它们在其他领域的报告准确性通常假设训练数据在不同来源和实验之间是可比的,而这对发酵记录来说很少成立。因此,消除批次间的系统差异是这些模型在发酵中可靠使用的先决条件。
这种变异性的一个主要来源是批次效应——即使保持名义条件相同,从不同批次收集的数据之间也会出现一致的差异[24]。这些差异可能源于时间、人员、试剂批次[25]或仪器设备的变化,它们损害了数据集之间的可比性。批次效应在高通量生物学领域(如转录组学、蛋白质组学和代谢组学[26]、[27])中得到了广泛研究,其中数据通常使用不同的平台、协议或操作员生成。这些批次间的不一致性严重阻碍了数据整合并增加了实验成本。例如,为了减轻转录组学研究中的批次效应,研究人员通常使用RNA-seq作为标准的数据生成技术[28]、[29]、[30]。因此,解决批次效应不仅对于确保数据完整性至关重要,而且对于成本效益高的大规模分析也非常重要,特别是考虑到多组学数据的量和复杂性的持续增长。
为了校正批次效应,已经开发了一系列统计技术,每种技术都有其独特的优势和局限性[31]、[32]。基于线性回归的模型通过将批次效应明确建模为协变量来消除它们,在效应线性和可分离的情况下提供了简单性。经验贝叶斯方法(例如ComBat)使用贝叶斯框架估计和校正加性和乘性批次成分[33]。替代变量分析(SVA)在不需要明确批次标签的情况下推断出隐藏的变异来源,当批次元数据不完整或缺失时特别有用[34]。线性混合效应模型(LMMs)同时建模固定的生物效应和随机的批次级变异,为纵向或时间序列数据提供了灵活的框架[35]。动态时间弯曲(DTW)通过非线性时间重新参数化对齐批次轨迹,同步可比较的过程阶段[36]、[37]。虽然有效校正了相位偏移,但如果过度弯曲,它可能会扭曲轮廓。功能数据分析(FDA)将轨迹表示为平滑函数,并通过基函数展开和功能主成分解释变异[38]。FDA已应用于食品和生物加工中的批次监测和设计空间表征,提供了去噪和紧凑的总结,但需要仔细选择平滑参数[39]。
尽管在组学研究中批次效应校正已被证明是有效的,但它们直接应用于发酵数据仍然有限。组学数据集通常每个批次包含多个平行样本,这使得可以可靠地估计批次特定的位置和尺度效应。在发酵数据集中,每个批次通常是一个没有内部重复的单个时间序列,时间结构与批次效应相互作用。因此,许多依赖于重复或特征独立性的校正方法在统计上变得不稳定。
为了解决这种不匹配,我们提出了一种针对发酵数据的校正策略。目的是提高数据的一致性,并支持更准确和稳健的发酵过程建模。本文的主要贡献如下:
- 1.
最初为基因表达分析开发的经验贝叶斯方法成功地适应于发酵数据集的应用,展示了其在组学领域之外的多功能性。
- 2.
引入了一种针对发酵数据特点的新数据聚类策略,以提高与经验贝叶斯框架的兼容性。这一改进有助于更有效的批次效应校正,并为其他类型的时间序列数据提供了方法论见解。
- 3.
所提出的校正方法显著减少了系统误差,提高了发酵模型的准确性和预测性能,这对于优化过程效率、产品产量和整体质量至关重要。
本文的其余部分组织如下。第2节描述了扩展的经验贝叶斯方法和提出的聚类策略。第3节通过两个案例研究展示了该方法在经典发酵场景中的有效性,强调了校正前后数据结构的变化。第4节总结了本文并讨论了未来的研究方向。