《Bioresource Technology》:Machine learning-driven multi-objective optimization of
Dunaliella salina cultivation for enhanced biomass and β-carotene production
编辑推荐:
可解释的多目标机器学习框架优化盐生杜氏藻(Dunaliella salina)生物量与β-胡萝卜素产率,通过集成随机森林、XGBoost、GBDT和ANN模型及粒子群优化算法,实现产量提升63.46%和63.11%,并利用SHAP分析量化关键变量贡献。
Jianxin Tang|Zizhou Zhang|Jinghan Wang|Fantao Kong|Zhanyou Chi
中国辽宁省大连市大连工业大学生物工程学院生物智能制造教育部重点实验室,邮编116024
摘要
本研究提出了一个可解释的多目标机器学习(ML)框架,用于解决盐藻(Dunaliella salina)中生物量积累与β-胡萝卜素生产之间的权衡问题。模型基于1,494个数据点构建,这些数据点来自637个拉丁超立方抽样(LHS)设计的实验条件,涵盖了八个输入变量:温度、光照强度、盐度、NaHCO3、NaNO3、K2HPO4、腐胺以及培养时间,输出变量为干细胞重量(DCW)和β-胡萝卜素产量。通过对随机森林(RF)、极端梯度提升(XGBoost)、梯度提升决策树(GBDT)和人工神经网络(ANN)四种算法的系统性评估,发现ANN和GBDT分别是预测DCW和β-胡萝卜素产量的最佳单一目标模型。在此基础上,进一步开发了它们的多目标版本。作为统一框架的多目标ANN表现出最佳的预测性能,整体测试R2值为0.9758,其准确性与专门的单一目标模型相当。结合粒子群优化(PSO)技术,该框架生成了定制化的培养策略(帕累托最优解和基于权重的解),实验验证显示所有相对误差均低于6.67%。与未使用ML优化的对照组相比,帕累托最优策略使生物量和β-胡萝卜素产量分别提高了63.46%和63.11%。Shapley加性解释(SHAP)分析表明,培养时间、盐度和光照强度是影响模型预测的最关键因素。这项工作为微藻生物过程的智能和可持续优化建立了一个稳健的数据驱动范式。
引言
来自耐盐微藻Dunaliella salina的天然β-胡萝卜素在营养保健和制药行业中具有很高的价值(Sousa等人,2024年)。然而,由于其生物量浓度和β-胡萝卜素产量较低,其工业化生产在经济上仍面临挑战(Norsker等人,2011年)。同时提高微藻的生物量和β-胡萝卜素产量对于推动微藻产业的发展至关重要。
微藻培养过程复杂,受到光照、温度、盐度、宏量/微量营养素以及外源植物激素等多种相互作用因素的影响。传统的优化方法(如逐因素优化和响应面方法)无法有效建模这些复杂的非线性关系,并在高维参数空间中找到全局最优解(Kumar Saini等人,2020年)。机器学习(ML)作为一种强大的工具,已在微藻生物过程优化中展现出优势,能够模拟复杂的非线性关系并揭示过程变量之间的协同效应(Leng等人,2024年)。ML在微藻生物技术中的应用包括菌株筛选(Sonmez等人,2022年)、生长预测(Yeh等人,2023年)以及培养基优化(Dineshkumar等人,2015年),这些应用涉及脂质、藻胆蛋白、虾青素和叶黄素等高价值产品。
结合多目标优化的ML能够同时优化生物量和代谢产物的生产,近年来在微藻研究中的应用日益增多(Kumar等人,2024年;Kumar Saini等人,2021年;Li等人,2025年)。然而,目前尚缺乏专门针对Dunaliella salina培养过程中生物量-β-胡萝卜素权衡问题的优化框架。此外,有两个关键因素尚未得到充分探索:首先,像腐胺这样的植物激素作为调节微藻生物量积累和代谢物生物合成的因子,很少被纳入可量化的ML模型中;它们的影响通常仅以定性方式描述,这限制了在多因素培养系统中对其效应的量化(Tang等人,2025b)。其次,培养时间通常被视为固定的实验终点,而非连续优化的变量,这种静态观点无法捕捉生物量和代谢物积累的动态变化,可能阻碍最优收获条件的确定。
为了解决这些问题,本研究开发了一个可解释的ML多目标优化框架,用于指导Dunaliella salina的培养过程。该框架创新地将植物激素调节和动态培养时间作为核心可优化输入变量,同时考虑了关键的环境和营养因素。研究过程中开发并比较了单一目标和多目标ML模型,以准确预测这两个目标。随后通过SHAP分析解释模型并量化输入变量的贡献。最终,将最优的多目标预测模型与粒子群优化(PSO)结合,确定了帕累托最优解和基于权重的培养策略,并通过实验进行了验证。这种集成工作流程形成了一个稳健的数据驱动决策支持工具,能够在竞争性的生产目标之间实现平衡,为微藻培养的优化提供了可扩展的范式。
部分内容摘录
微藻菌株和预培养条件
Dunaliella salina菌株CCAP 19/18来自英国温德米尔市的藻类和原生动物培养库(CCAP)。预培养条件按照Xi等人(2022a)的方法进行。简而言之,原始培养物在轨道摇床中以110 rpm的速度和25 ± 1°C的温度下培养,并持续接受40μmol m?2 s?1的光照。处于对数增长中期(培养10天后)的微藻细胞通过3,000 rpm的速度离心2分钟进行收集。
超参数优化
超参数优化是提高模型预测性能的关键步骤。单一目标预测模型的优化结果总结在图2中。对于干细胞重量(DCW)的预测,最优配置如下:RF(max_depth = 16, n_estimators = 64),XGBoost(6, 310),GBDT(6, 322),以及ANN(1个隐藏层,57个神经元)(图2a)。对于β-胡萝卜素产量的预测,最佳参数分别为:RF(16, 79),XGBoost(4, 243),GBDT(3, 349),以及ANN(1个隐藏层,40个神经元)(
结论
本研究成功开发并验证了一个集成的ML和多目标优化框架,用于解决Dunaliella salina中生物量与β-胡萝卜素生产之间的权衡问题。所开发的多目标ANN模型为同时预测这两个目标提供了有效的统一框架,实现了与多标准决策的直接关联。结合粒子群优化(PSO),该框架确定了帕累托最优解和基于权重的培养策略。
CRediT作者贡献声明
Jianxin Tang:撰写 – 审稿与编辑,撰写 – 原始草稿,验证,方法学设计,研究实施,概念化。Zizhou Zhang:研究实施。Jinghan Wang:资源获取。Fantao Kong:资源支持。Zhanyou Chi:撰写 – 审稿与编辑,验证,监督,资源协调,资金筹集,概念化。
利益冲突声明
作者声明没有已知的财务利益冲突或个人关系可能影响本文的研究结果。