使用经验贝叶斯方法校正发酵过程中的批量效应

《Journal of Process Control》：Correcting batch effects in fermentation processes using empirical Bayesian approach

【字体：大中小】 时间：2026年02月05日 来源：Journal of Process Control 3.9

编辑推荐：

　　针对发酵数据中批次效应导致的模型偏差问题，本研究提出一种结合经验贝叶斯方法和无监督聚类策略的数据校正方法。通过青霉素和酿酒酵母发酵案例验证，该方法显著降低批次间变异（70.3%）并提升数据一致性（74.4%），优于传统校正方法，有效支持黑箱和灰盒模型的应用。

楼凯强|赵顺义|栾晓莉|刘飞

江南大学先进轻工业过程控制重点实验室（教育部），中国无锡，214122

摘要

由于发酵过程的非线性动态、时间依赖行为以及系统固有的不确定性，对其进行建模具有挑战性。实践中广泛使用数据驱动的方法，包括黑箱模型和灰箱模型，但其性能在很大程度上依赖于输入数据的一致性和可靠性。影响发酵数据集的一个常见问题是批次效应的存在，即在不同条件下进行的多次发酵实验所收集的数据之间存在系统性差异。这些差异降低了数据的可比性，阻碍了可靠的建模。为了解决这个问题，本研究提出了一种基于经验贝叶斯的方法来处理发酵数据集。该方法的一个关键组成部分是一种无监督的批次聚类策略，该策略能够在没有批次内重复实验的情况下实现更稳定的参数估计。将这种聚类辅助的ComBat方法应用于两个代表性案例：青霉素发酵和酿酒酵母（Saccharomyces cerevisiae）发酵。在青霉素数据集（20个批次）中，结果表明该方法有效减少了70.3%的批次间变异性（中位数标准差），并提高了74.4%的数据一致性（中位数变异系数）。使用中位数绝对偏差进行的评估证实了其相对于传统校正方法的优势，相对于原始数据，准确性提高了64.4%。在更大的数据集上的额外测试进一步支持了其稳健性和实际应用性。

引言

发酵过程本质上非常复杂，表现出强烈的非线性、时变动态以及对环境和操作条件的敏感性。尽管生物技术取得了进展，工业需求也在增加，但一致的控制仍然是一个主要挑战——这主要是由于未测量的变量、批次间的变异性以及关键指标（如底物和产物浓度）的在线传感有限[1]、[2]、[3]。这些限制使得发酵系统无法达到其他工业过程那样的自动化和控制成熟度。随着生产要求的提高和监管要求的加强，开发准确可靠的数学模型变得至关重要。这样的模型是理解系统行为、补偿未测量状态以及实现先进监测和控制策略的重要工具[4]、[5]。

数学建模建立了输入变量（例如菌株浓度、培养基组成、环境因素）和输出变量（例如生物量、产物浓度、pH值、温度）之间的定量关系。根据建模目标，可以采用不同复杂性和抽象程度的模型。

白箱模型基于第一性原理，依赖于对潜在物理、化学和生物过程的详细机制知识。它们通常包含物质和能量平衡，并描述细胞生长、底物消耗和产物形成等现象。这些模型可以是动态的，通过微分方程表示，也可以是静态的，通过代数关系表达。相比之下，黑箱模型不包含机制洞察，而是捕捉过程输入（例如温度、pH值、溶解氧、进料速率）和输出（例如生物量、底物浓度、产物水平）之间的经验关系。使用统计或机器学习方法构建的黑箱模型具有灵活性和易用性，尤其是在第一性原理知识有限的情况下[6]。

在这两种范式之间是灰箱模型，它们将简化的机制组件与数据驱动的公式结合起来。这些模型通常包括基于守恒定律和实验数据的微生物生长、产物形成和底物利用的经验子模型。虽然参数估计依赖于数据，但模型结构仍保留了物理可解释性，使得灰箱模型在分析和控制任务中具有吸引力[7]。

鉴于发酵系统的显著非线性、时变行为、高阶动态和固有的不确定性，完全基于机制的建模往往不切实际。因此，黑箱和灰箱方法被广泛采用[8]、[9]、[10]、[11]。然而，它们的成功在很大程度上取决于用于训练和验证的高质量批次数据的可用性。当数据表现出系统性变异性时，模型的准确性和泛化能力会受到影响。除了生物过程研究之外，最近的工作表明，灵活的模型能够捕捉复杂的非线性模式和不确定性，包括神经网络[12]、[13]、[14]、高斯过程回归[15]、[16]、[17]、图形模型[18]、[19]和集成方法[20]、[21]。同时，关于批次过程的研究通过基于协整的建模和慢特征分析解决了非平稳性和长期漂移问题，这可以在变化条件下改善监测[22]、[23]。然而，这些方法并没有明确消除批次之间的系统差异。它们在其他领域的报告准确性通常假设训练数据在不同来源和实验之间是可比的，而这对发酵记录来说很少成立。因此，消除批次间的系统差异是这些模型在发酵中可靠使用的先决条件。

这种变异性的一个主要来源是批次效应——即使保持名义条件相同，从不同批次收集的数据之间也会出现一致的差异[24]。这些差异可能源于时间、人员、试剂批次[25]或仪器设备的变化，它们损害了数据集之间的可比性。批次效应在高通量生物学领域（如转录组学、蛋白质组学和代谢组学[26]、[27]）中得到了广泛研究，其中数据通常使用不同的平台、协议或操作员生成。这些批次间的不一致性严重阻碍了数据整合并增加了实验成本。例如，为了减轻转录组学研究中的批次效应，研究人员通常使用RNA-seq作为标准的数据生成技术[28]、[29]、[30]。因此，解决批次效应不仅对于确保数据完整性至关重要，而且对于成本效益高的大规模分析也非常重要，特别是考虑到多组学数据的量和复杂性的持续增长。

为了校正批次效应，已经开发了一系列统计技术，每种技术都有其独特的优势和局限性[31]、[32]。基于线性回归的模型通过将批次效应明确建模为协变量来消除它们，在效应线性和可分离的情况下提供了简单性。经验贝叶斯方法（例如ComBat）使用贝叶斯框架估计和校正加性和乘性批次成分[33]。替代变量分析（SVA）在不需要明确批次标签的情况下推断出隐藏的变异来源，当批次元数据不完整或缺失时特别有用[34]。线性混合效应模型（LMMs）同时建模固定的生物效应和随机的批次级变异，为纵向或时间序列数据提供了灵活的框架[35]。动态时间弯曲（DTW）通过非线性时间重新参数化对齐批次轨迹，同步可比较的过程阶段[36]、[37]。虽然有效校正了相位偏移，但如果过度弯曲，它可能会扭曲轮廓。功能数据分析（FDA）将轨迹表示为平滑函数，并通过基函数展开和功能主成分解释变异[38]。FDA已应用于食品和生物加工中的批次监测和设计空间表征，提供了去噪和紧凑的总结，但需要仔细选择平滑参数[39]。

尽管在组学研究中批次效应校正已被证明是有效的，但它们直接应用于发酵数据仍然有限。组学数据集通常每个批次包含多个平行样本，这使得可以可靠地估计批次特定的位置和尺度效应。在发酵数据集中，每个批次通常是一个没有内部重复的单个时间序列，时间结构与批次效应相互作用。因此，许多依赖于重复或特征独立性的校正方法在统计上变得不稳定。

为了解决这种不匹配，我们提出了一种针对发酵数据的校正策略。目的是提高数据的一致性，并支持更准确和稳健的发酵过程建模。本文的主要贡献如下：

1.
最初为基因表达分析开发的经验贝叶斯方法成功地适应于发酵数据集的应用，展示了其在组学领域之外的多功能性。
2.
引入了一种针对发酵数据特点的新数据聚类策略，以提高与经验贝叶斯框架的兼容性。这一改进有助于更有效的批次效应校正，并为其他类型的时间序列数据提供了方法论见解。
3.
所提出的校正方法显著减少了系统误差，提高了发酵模型的准确性和预测性能，这对于优化过程效率、产品产量和整体质量至关重要。

本文的其余部分组织如下。第2节描述了扩展的经验贝叶斯方法和提出的聚类策略。第3节通过两个案例研究展示了该方法在经典发酵场景中的有效性，强调了校正前后数据结构的变化。第4节总结了本文并讨论了未来的研究方向。

部分摘录

用于批次效应调整的经验贝叶斯方法

假设数据集包含

n

个批次，每个批次包含

T

个采样点。设

Y_{i}

t

表示来自批次

i

t

t

t

的观测值，其中

i = 1, \dots, n

t

。将所有观测值堆叠起来得到矩阵

Y R^{n}

。批次级的、时间不变的协变量收集在设计矩阵

X R^{n}

中，其中

p

是聚类前可用的批次级协变量数量；额外的聚类指标将在2.2节中添加。我们定义以下线性模型来描述批次数据

实验验证

在本节中，我们在两个发酵案例研究——青霉素过程和酿酒酵母（Saccharomyces cerevisiae）过程——以及蒙特卡洛模拟中评估了所提出的方法。对于所有实验，我们使用了四种已建立的批次效应校正程序作为基准：removeBatchEffect [28]、LMM [42]、DTW [36]、[37] 和 FDA [38]、[39]。

结论

本研究通过调整和扩展最初为基因表达分析开发的经验贝叶斯方法ComBat，解决了发酵数据中批次间变异的挑战。为了适应发酵数据集的结构特点，引入了一种批次聚类策略，以提高参数估计的稳健性和校正精度，特别是在每个批次包含的观测值有限的情况下。

模拟结果

CRediT作者贡献声明

楼凯强：撰写——原始草稿。赵顺义：撰写——审阅与编辑，资源准备。栾晓莉：资源准备。刘飞：资源准备。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

致谢

本工作得到了中国国家重点研发计划（项目编号：2022YFC3401303）的支持。

摘要

引言

部分摘录

用于批次效应调整的经验贝叶斯方法

实验验证

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行

新闻专题