通过数据驱动的逆向设计加速生物电极脱氯过程

《Environmental Science and Ecotechnology》:Accelerating Bioelectrodechlorination via Data-Driven Inverse Design

【字体: 时间:2025年09月28日 来源:Environmental Science and Ecotechnology 14.3

编辑推荐:

  微生物电化学技术结合机器学习模型优化污染物的脱氯效率,通过整合实验参数与阴极生物膜数据,揭示温度、电极电位、污染物分子特性及功能菌群(如Geobacter、Desulfovibrio)的关键作用机制,实现反应速率预测误差低于6%的快速参数优化。

  微生物电呼吸技术利用细菌驱动还原脱氯反应,为治理受持久性氯代有机污染物(COPs)污染的环境提供了一种可持续的方法。然而,含水层复杂的水文地质和水化学条件,加上COPs分布的不均匀性,导致生化反应、环境因素和微生物群落存在显著的空间和时间变化。传统试错实验既费时又费力,限制了对加速脱氯速率条件的快速识别。本研究展示了一种机器学习框架,结合实验设计和阴极生物膜数据,揭示了环境变量、脱氯动力学、电化学特性与功能微生物之间的关键相互关系,从而实现生物电脱氯的快速优化。该框架基于文献数据集,使用极端梯度提升(XGBoost)、随机森林(RF)和多层感知器(MLP)等模型进行训练,识别出温度和阴极电位是实验设计中的主要驱动因素,并强调了包括Clostridium、Desulfovibrio、Dehalococcoides、Pseudomonas、Dehalobacter、Arcobacter、Lactococcus和Geobacter在内的关键生物膜属。该方法支持逆向设计,用于确定最优参数,如阴极电位、温度和添加剂,以脱氯代表性COPs,如四氯乙烯(PCE)、三氯乙烯(TCE)和1,2-二氯乙烷(1,2-DCA),达到反应速率预测误差低于6%的水平。这种方法相较于传统方法,提高了效率,降低了成本,加快了生物修复过程,而无需大量实验室测试。通过将微生物群落信息纳入预测模型,我们的数据驱动策略推动了微生物电呼吸技术在COPs污染水体修复中的可扩展应用,并为环境工程中更广泛的生物电化学应用铺平了道路。

在引入这一方法之前,微生物电呼吸技术已被广泛应用于水体污染治理,特别是在氯代有机化合物(如土壤和地下水)的生物修复过程中。然而,地下水的水文和水化学环境复杂性,以及氯代有机污染物的异质性和功能微生物的多样性,显著增加了调节微生物修复活性的难度。通常,获取最佳系统设计和操作参数需要在实验室中进行大量的实验,这往往成本高昂、耗时且不可持续。此外,基于现有研究和经验寻找具有相似污染特征、反应条件和水文地质环境的案例也面临挑战,使得开发全面的反应模型变得困难。

幸运的是,几十年来对微生物电呼吸用于还原脱氯的研究为数据驱动的方法奠定了坚实的基础,特别是机器学习(ML)。ML能够分析大量数据,提取见解,识别模式和趋势,从而改善结果。在有机氯化物迁移和转化领域,ML已被证明在各种应用中具有可靠的效能,包括氯离子扩散分析、球磨提高脱氯效率和原位电化学脱氯分析。与机制反应动力学模型(如定量结构-活性关系和定量结构-性质关系)相比,ML可以通过利用更广泛的特征,包括环境特征和材料结构,达到更令人满意的成果。这种能力为“目标导向优化设计”概念提供了支持。优化设计从预测模型的预期性能开始,然后反向推导模型输入,使ML能够使用丰富且复杂的输入特征预测结果,而无需深入的基础研究。

目前,基于ML的逆向设计方法已被用于优化流程,基于操作特征在诸如电化学氧化过程、膜过滤和生物质制氢等领域的应用。尽管在逆向设计系统中取得了显著进展,但这些系统很少包含微生物群落数据。此外,当涉及微生物群落时,细菌群落通常被用作数据驱动的分析工具,而不是作为用于逆向设计的特征。虽然Peng和Tan对使用超高石灰铝法在渣粉和粉煤灰混凝土中进行脱氯吸附的逆向设计进行了初步尝试,但尚未有研究开发出结合微生物群落的ML模型来预测反应速率常数。此外,关于开发基于ML的微生物电化学脱氯模型的研究仍属空白,这限制了COPs生物修复技术的发展。此外,开发整合实验操作特征和生物特征的模型,而不仅仅是考虑生物数据,将进一步提升逆向设计过程。这些数据的缺乏限制了ML在微生物电呼吸实际应用中的指导价值和推广潜力。

在此基础上,我们引入了一种基于ML的逆向设计策略,用于优化生物电脱氯。该方法建立了操作特征、阴极生物膜特征和脱氯效果之间的稳健关系,从而有助于识别最佳脱氯条件。我们首先使用文献数据集评估了包含操作和生物特征的模型性能。为了解释模型,我们采用了Shapley加性解释(SHAP)方法。随后,我们使用粒子群优化(PSO)进行逆向设计,以确定最佳的脱氯特征组合。识别出的条件随后通过微生物电呼吸脱氯实验进行验证。这项研究为微生物电呼吸脱氯中的逆向设计应用提供了有价值的见解,并倡导发展包含生物数据的逆向设计模型。

在材料和方法部分,数据集是从使用“生物电化学”、“氯代污染物”和“脱氯”等关键词的已发表研究中收集并处理的。通过严格的人工筛选,从68篇同行评审研究论文中选择了357个数据点用于构建ML分析的数据集。数据集分为三组:实验设计、阴极生物膜和反应速率数据。特征类别、命名规则、单位和数据集的其他信息在补充文本S1中详细说明。我们的数据集可以通过补充数据(Database.xlsx)获取。

实验设计数据描述了实验的操作特征,包括357个数据条目。关键特征包括目标污染物、污染物浓度(mmol kg?1)、菌株、阴极反应器体积(mL)、阴极电极材料、阴极电极面积(cm2)、阳极反应器体积(mL)、阳极电极材料、阳极电极面积(cm2)、电极修饰材料、辅助反应添加剂、添加剂剂量、阴极电位(mV;标准化为标准氢电极[SHE])、ISBio和ISEle,以及环境温度(°C)。ISBio和ISEle分别由0和1组成,用于区分实验是否包含生物污泥或电极刺激。目标污染物由量子描述符(Egap、EHOMO、ELUMO、μ、f(?)min/max、f(+)min/max、f(0)min/max、f(?)Cl,min/max、f(+)Cl,min/max和f(0)Cl,min/max)表示,这些描述符是通过ORCA和Multiwfn计算得出的(详情见补充文本S2)。

阴极生物膜数据包括实验反应器达到稳定运行状态后,细菌在属和种水平上的相对丰度,共有88个属水平数据和95个种水平数据。相对丰度较低的细菌(<0.6%)被归类为“其他”,未识别的物种则填充为0。反应速率数据描述了伪一级反应动力学的反应速率(k,s?1),通过拟合反应数据获得。由于k的范围较广,将其转换为以2为底的对数形式,以提高模型的准确性。

在模型开发和优化部分,离散和非数值特征被编码以方便分析。在实际的生物电化学系统(BES)中,诸如阴极电极材料、阳极电极材料、电极修饰材料和辅助反应添加剂等特征的类别比数据集中描述的更加多样。使用独热编码可能会过度扩展特征维度,从而降低ML分析的性能。因此,在本研究中,非数值特征使用目标编码进行描述。为了防止数据泄露,编码方法仅应用于训练数据的子集。数据集中的缺失值通过k-最近邻算法进行估算(详情见补充文本S3)。

所有ML分析均使用Python 3.8.7进行。常用ML模型被用于设计,包括极端梯度提升(XGBoost)、随机森林(RF)、支持向量机、多层感知器(MLP)、高斯过程、决策树、最小二乘线性回归、岭回归和随机梯度下降。数据集被随机分为训练集和测试集,比例为9:1。使用网格搜索(详情见补充文本S4)和十折交叉验证进行模型超参数调优。由于反应速率数据只能通过实验获得,k是模型的输出。

为了观察和比较不同输入对ML性能的影响,我们分别检查了实验设计和阴极生物膜数据对k的影响。在本研究中,我们测试了五种类型的ML模型。其中,e2k模型使用实验设计数据作为输入,反应速率数据作为输出;bP2k模型使用阴极生物膜数据(门水平)作为输入,反应速率数据作为输出;bG2k模型使用阴极生物膜数据(属水平)作为输入,反应速率数据作为输出;ebP2k模型使用实验设计和阴极生物膜数据(门水平)作为输入,反应速率数据作为输出;ebG2k模型使用实验设计和阴极生物膜数据(属水平)作为输入,反应速率数据作为输出。

在预测阴极生物膜数据时,使用实验设计数据的方法被测试过(详情见补充文本S5)。这种方法在训练集中导致过拟合,测试集的R2值小于0。通过ML预测生物信息需要分析并提供大量的输出特征,这会增加数据的维度和稀疏性,降低模型的泛化能力,并是欠拟合的主要原因。因此,对于本数据集,使用实验设计数据预测阴极生物膜数据被认为不可行。

为了从全局和局部角度解释具有黑箱特性的ML输出,我们使用了SHAP方法来计算模型输出中特征的边际贡献。输入数据被归一化以确保空间范围的一致性。两个常见的误差分析指标,R2和均方根误差(RMSE),被用于评估ML性能。理想的模型通常表现出较高的R2值或较低的RMSE。由于计算方法的差异,最佳的R2值和RMSE并不一定与一组模型特征相吻合。由于RMSE对异常值不敏感,它被用作超参数调优的指标。为了进一步提高模型性能,我们使用了主成分分析(PCA)、相关性分析和SHAP等方法重新评估重要特征,然后进行再训练以达到最佳模型。部分相关性分析用于进一步验证SHAP结果。在模型验证步骤中,我们进行了生命周期评估(LCA),以分析环境影响。

在逆向设计框架的构建和验证部分,我们选择了PSO,因为它在连续优化问题中表现出色,具有更快的收敛速度。这一选择得到了补充文本S7中比较测试结果的支持,其中PSO在实验设计方面优于其他算法,如遗传算法和模拟退火。PSO的设置在补充文本S8中详细说明。目前,还没有有效的方法可以直接调节生物膜中的细菌群落。反应器中细菌群落的分布,特别是像污水处理厂这样的大型设施,会受到不可预测的有毒物质(如抗生素、重金属和塑料)的持续影响。为了解决这个问题,我们首先使用e2k模型和PSO确定了初步的实验条件,如图1所示。随后,我们基于实际实验获得的阴极生物膜数据构建了eb2k模型(包括ebG2k和ebP2k)。接着,再次应用搜索算法来优化实验条件。这一过程持续进行,直到理想特征条件的范围被识别出来。

通过实验验证逆向设计,以提高模型预测的可信度(补充文本S9),我们使用了H型双室BES反应器。饱和甘汞电极(SCE)被用作参考电极以监测电极电位,并将其转换为SHE表示。由于它们具有代表性的环境危害,我们选择了三种氯代烃进行还原脱氯实验:四氯乙烯(PCE)、三氯乙烯(TCE)和1,2-二氯乙烷(1,2-DCA)。实验重复了三次,最终数据报告为平均值。有关反应器、电极、污染物和监测方法的更多细节可在补充文本S11中找到。

在结果和讨论部分,我们对数据集进行了描述性分析。基于log?k排名的实验设计数据可视化并未显示出特征与k之间的明显数学关系(补充图S1)。这一观察得到了线性分析结果的支持(补充文本S12),表明数据中存在更复杂的数学变化。由于数据集由各种文献来源编译而成,大多数特征不符合正态分布(p = 0.05,详情见补充文本S13),因此我们使用斯皮尔曼相关系数进行相关性分析。实验设计数据中的每个特征与k的绝对相关性均小于0.350(补充图S2)。然而,这些特征可能仍然以不同的方式对输出产生影响,这意味着初步选择这些特征是可行的。

分子轨道信息反映了E_HOMO和E_LUMO的变化,显示出相似的数值变化。与E_HOMO和E_LUMO的数值相比,E_gap更具相关性,因为它反映了E_HOMO和E_LUMO之间的数值差异,通常用于衡量分子的激发难易程度。因此,E_HOMO被从输入中移除,并被E_LUMO和E_gap替代。由于阴极电位的0点表示无电极刺激,阴极电位在0点附近的数值跳跃趋势与ISEle相似。为了避免因高度同质化信息导致的模型偏差,μ被从输入中移除。在PCA中,实验设计数据特征的位置相距较远(图2a),表明这些特征之间的相关性较弱。数据点主要集中在如菌株、阴极电位、污染物浓度、材料(阳极)和福基指数等特征附近,这表明这些可能是影响脱氯反应的主要因素。几乎没有任何数据点在f_min(包括f(+)_min、f(-)_min和f(0)_min)附近聚集。较高的福基指数表明原子系统更可能被攻击,而f_min,代表最低值,可能在脱氯系统中缺乏分析价值。作为冗余数据,f_min可能会使模型复杂化并影响可解释性,因此被从输入中移除。总体而言,E_HOMO、μ、ISEle和f_min被视作可能不合适的特征,并从本研究中排除。生物种群之间的复杂相互作用使得合理地从阴极生物膜数据中移除特征变得困难。生态网络框架中的动态变化表明生物之间存在不可分割的关系。因此,阴极生物膜数据的所有特征都被用作输入。

通过预测阴极生物膜数据使用实验设计数据的方法被预先测试(详情见补充文本S5)。这种方法在训练集中导致过拟合,测试集的R2值小于0。通过ML预测生物信息需要分析并提供大量的输出特征,这会增加数据的维度和稀疏性,降低模型的泛化能力,并是欠拟合的主要原因。因此,使用实验设计数据预测阴极生物膜数据被认为不可行。

为了从全局和局部角度解释具有黑箱特性的ML输出,我们使用了SHAP方法来计算模型输出中特征的边际贡献。输入数据被归一化以确保空间范围的一致性。两个常见的误差分析指标,R2和均方根误差(RMSE),被用于评估ML性能。理想的模型通常表现出较高的R2值或较低的RMSE。由于计算方法的差异,最佳的R2值和RMSE并不一定与一组模型特征相吻合。由于RMSE对异常值不敏感,它被用作超参数调优的指标。为了进一步提高模型性能,我们使用了主成分分析(PCA)、相关性分析和SHAP等方法重新评估重要特征,然后进行再训练以达到最佳模型。部分相关性分析被用于进一步验证SHAP结果。在模型验证步骤中,我们进行了生命周期评估(LCA)以分析环境影响。

在逆向设计和实验验证部分,基于先前提到的实验操作条件(补充文本S11)和逆向设计过程(图1),我们使用训练好的ML模型测试了PCE、TCE和1,2-DCA的逆向设计效果。我们首先固定了一些基本特征(补充表S2),如污染物的量子描述。随后,我们使用e2k模型确定了其他特征,以快速缩小调整范围。反应器体积与面积(阴极/阳极)之间倾向于形成相互加强的关系,这使得这两个特征在训练集中总是收敛于较大值(反应器体积>300 mL,阴极/阳极面积>200 mL)。为了避免因高度同质化信息导致的模型偏差,我们将反应器体积固定为100 mL,阴极/阳极面积固定为42.41 cm2(直径和高度均为3 cm)。搜索结果(表1)通过平行实验进行验证,相对误差小于10%。使用9组随机特征配置的对照实验(补充表S4)证明了这一结果具有局部最优性。在没有初步实验的情况下,快速确定最佳操作因子验证了基于ML的逆向设计。

为了统一比较,我们固定了温度和其他条件,并使用eb2k模型基于获得的阴极生物膜数据重新优化阴极电位。ebP2k模型的预测性能劣于ebG2k(补充表S5),这与之前的模型评估结果一致,表明属水平数据更适合逆向设计。根据ebG2k的PSO结果(补充表S6),阴极电位被设置为?260.0、?280.0和?270.0 mV,分别用于PCE、TCE和1,2-DCA。ebG2k的log?k预测精度相较于e2k有所提高,其RMSE为0.843,相对误差为4.696%(图6b)。在不同电位条件下的门水平和属水平微生物丰度信息分别显示在补充图S18和图6d中。使用ebG2k进行进一步优化(补充图S19)显示,PCE和TCE的反应速率提升有限,而1,2-DCA的反应速率相对较低。这可能是由于在狭窄调整范围内实验误差或PSO随机步骤搜索相似解决方案所致。初始的ebG2k电位条件似乎足以实现满意的脱氯效果。因此,我们在此处停止了进一步的优化。

在?100.0和?600.0 mV的额外实验中,确认了这些结果的可靠性。在四个电位设置中,ebG2k搜索的电位条件显示出最佳的k值,其次是e2k,这表明我们的ML模型已经达到了局部最优解。使用bG2k模型进行k预测的相对误差为1.562%(补充表S7),这表明基于属水平数据的初步k推断是可行的。在五种模型中,bG2k表现最佳。然而,由于精确调节生物网络目前成本高昂且耗时,因此建议将实验设计数据作为输入与ebP2k或ebG2k结合使用,这也是本研究中采用的方法。我们的ML框架(图1)具有适应性,不局限于脱氯代谢产物,还可以应用于其他污染物和生物电呼吸过程。这些差异主要体现在各个系统的操作特性上,而这些数据库仍需进一步整理,需要更多研究人员的贡献以推动该框架在更广泛场景中的应用和发展。

尽管取得了这些进展,我们的研究仍受到所使用数据集质量和完整性的限制,这可能影响了模型在某些情况下的性能。例如,当使用e2k模型预测Chen等人(40)的数据集时,相对误差达到了11.520%(补充图S24),这可能是因为实验条件的差异,如连续流动和开/关电路交替。此外,重要的特征,如搅拌方法和速度,往往未在文献中报告,这使得它们难以纳入模型。

微生物群落的复杂性是另一个主要挑战。使用16S rRNA数据提供的分类分辨率有限,通常无法捕捉低丰度但功能关键的微生物类群。此外,文献衍生的数据集经常缺乏对“其他”微生物群的详细注释,导致模型过度依赖已知物种,忽略了未知类群的相互作用。为了应对这些限制,我们提出了以下未来工作的策略:(1)纳入更多“负面”样本(即无脱氯活性的系统),以提高模型区分相关特征的能力并减少过拟合;(2)整合宏基因组数据,以识别功能基因(如rdhA、pceA和vcrA)及其在样本中的分布,从而实现物种-酶-通路关系的高分辨率映射,补充微生物群落组成数据的高分辨率映射;(3)通过系统数据采集扩展数据集,包括标准化的实验记录和直接测序仓库(如国家生物技术信息中心序列读取档案[NCBI]、京都基因与基因组数据库[KEGG]和基因表达组数据库[GEO]),以丰富特征集的多样性和完整性。这将使ML模型更好地泛化于不同系统,并提高其在不同环境和操作条件下的逆向设计能力。

此外,将电动力学系统纳入ML框架将有助于开发统一的生物脱氯预测模型。这种整合将促进生物电化学和电动力学系统之间的跨系统比较,从而通过ML提高脱氯过程的可解释性和优化能力。此外,包括空间和长期时间数据将支持生成持久的辅助预测,进一步提高该框架在实际场地修复中的适用性。

在结论部分,本研究开发了ML模型以解决微生物电呼吸脱氯中的关键空白,并提出了一个结合生物数据的机器驱动生物电化学框架,用于分析环境因素、脱氯效率、电化学特性和功能微生物群落之间的相互关系。我们通过三种典型的COPs的随机实验验证了模型的逆向设计功能。经过迭代搜索,反应速率预测的相对误差控制在6%以内,RMSE低于1。这表明,可以通过ML确定满意的运行特征,而无需额外的现场实验。此外,本研究提出的ML框架适用于设计和优化其他BESs。它还可以用于开发针对特定需求的生物系统架构,或为创建更通用的生物信息学元模型奠定基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号