整合实验与机器学习建模以评估抗生素的半波电位

《ACS ES&T Engineering》:Integrating Experiments and Machine Learning Modeling to Assess the Half-Wave Potentials of Antibiotics

【字体: 时间:2025年10月22日 来源:ACS ES&T Engineering 4.3

编辑推荐:

  抗生素的氧化还原行为及QSPR模型研究。通过循环伏安法测定23种抗生素在不同pH条件下的半波电位(E?/?),发现其氧化还原行为与分子结构密切相关,如电荷分布、拓扑复杂性和可旋转键数。构建了SW-MLR和10种机器学习模型(包括AdaBoost、XGBoost等),其中AdaBoost模型表现最优(R2=0.945),并通过SHAP分析揭示了关键预测因子。研究为电化学降解抗生素提供了理论依据,但需实验验证。

  抗生素作为一种新兴的有机污染物,在环境中广泛存在。理解它们的氧化还原特性对于评估其环境命运和设计有效的处理策略至关重要。本研究通过一系列循环伏安法(CV)实验,测定了来自7个类别的23种抗生素在三种pH条件下的半波电位(E?/?),并发现几乎所有抗生素都经历了不可逆的氧化过程。其中,磺胺类和四环素类抗生素表现出pH依赖性的E?/?值变化,这种现象符合能斯特行为。通过使用逐步多元线性回归(SW-MLR)和十种机器学习算法,构建了定量结构-性质关系(QSPR)模型,以探讨分子结构对氧化还原行为的影响,并识别最佳预测模型。SW-MLR和自适应提升(AdaBoost)模型均表现出优异的性能,具有较高的拟合度和预测能力。在SW-MLR模型中,分子结构的连通性和拓扑复杂性被确认为最重要的特征,而在AdaBoost模型中,电荷分布则在捕捉非线性关系方面发挥主导作用。本研究深化了对抗生素氧化还原行为的理解,并提出了一个用于预测E?/?的新型QSPR模型。因此,该模型为抗生素在(生物)电化学氧化中的易感性提供了参考,但这些预测仍需在相应的电化学和生物电化学降解研究中进行验证。

本研究的背景源于抗生素在多个领域中的广泛应用,包括医疗、农业和畜牧业。医院被认为是抗生素排放的重要来源之一,也是抗生素污染环境基质的主要热点,因为其在传统废水处理中去除不完全。某些抗生素类别,如大环内酯类和碳青霉烯类,比其他抗生素更常用于医疗场景。特别是碳青霉烯类抗生素,因其对严重或多重耐药感染的治疗作用而被视为最后的治疗手段。尽管抗生素在保障公共健康方面至关重要,但它们也被视为微污染物,可能对人类和生态系统构成潜在风险,从而引发全球关注。其中,最严重的问题之一是抗生素耐药性的产生和传播,这对全球公共卫生构成重大威胁。因此,抗生素的持久性、生物累积性和对不同生态系统和生物的生态毒性已被广泛研究,并测试和实施了多种去除方法,包括高级氧化过程、生物降解和吸附技术。其中,(生物)电化学方法因其环境兼容性和能量高效去除和检测抗生素的潜力而显得尤为有前景。然而,为了设计和优化这些技术,理解抗生素的电化学行为是必不可少的。鉴于超过20类抗生素包括超过200种个体化合物,测试每种化合物都是不切实际的。因此,深入了解其电化学特性并识别结构-活性关系可以支持对不同抗生素类别的降解效率预测,并指导电化学处理技术的设计。

电化学方法,特别是循环伏安法(CV),是用于分析有机分子如抗生素(如甲硝唑、替硝唑、磺胺类、环丙沙星和阿奇霉素)的可逆和不可逆氧化还原反应的常用技术。然而,大多数研究是在不同的实验条件下进行的,例如不同的pH值、缓冲液、电极和电化学技术,这给系统研究抗生素在明确且生理相关的条件下的氧化还原特性带来了挑战。在电化学表征中,通常报告峰值电位,即氧化的阳极电位或还原的阴极电位,以评估这些化合物及其官能团的氧化还原行为。然而,通过电动力学方法确定峰值电位可能会受到电容电流和电化学不可逆反应的挑战。

作为替代方案,半波电位(E?/?)代表了不同电化学方法中的半极限电流。它也具有红ox化合物的特征(取决于使用的溶剂),并可用于预测进一步的电化学性质。此外,E?/?在理解抗生素的电子转移过程及其红ox活性官能团中起着关键作用,并能反映其在高级氧化过程中的稳定性、反应性和潜在转化路径。鉴于抗生素的多样性以及对每种化合物进行电化学分析的劳动密集型特性,需要采用替代方法,基于其结构特性并利用少量代表性抗生素的电化学测量,来预测抗生素的(生物)电化学降解行为。定量结构-活性/性质关系(QSAR/QSPR)模型是预测未测试或新化学品性质和行为的有效工具。QSAR/QSPR建模旨在建立化合物分子结构与性质(如机械、热、电等)之间的数学关系。设计一个性能良好的QSAR模型依赖于坚实的实验数据用于训练和测试,一套可解释的描述符,以及稳健的学习算法。

QSAR方法已在电化学研究中用于定量预测化合物的氧化还原能力。例如,E?/?被用于生成磺胺类、喹诺酮类、碳青霉烯类、大环内酯类等化合物的QSAR模型。然而,大多数研究基于小型数据集(数据点<50),因此其应用范围有限。最近,Bouarra等人利用MLR和人工神经网络(ANN)方法构建了一个基于84种氮杂环喹啉的QSAR模型,实现了对E?/?预测的R2值为0.914。虽然数据集比以往研究更大,但仅考虑了两种学习算法。然而,选择一种算法进行QSAR学习可能具有挑战性,并可能对某些数据集引入偏差。近年来,随着机器学习(ML)算法的发展,一些集成方法,如梯度提升机(GBM)、极端梯度提升(XGBoost)和分类提升(CatBoost)已被开发,并在QSAR建模中表现出卓越的性能。因此,对流行ML算法在QSAR学习中的综合性能评估具有高度需求,这可能为有效使用ML算法在QSAR建模中提供有价值的指导。此外,密度泛函理论(DFT)计算的量子化学描述符在现代QSAR分析中越来越受到重视,包括原子电荷、分子轨道能量等。DFT是研究分子电子结构的重要方法,广泛应用于物理和化学领域,可用于预测化学品的氧化还原电位。

本研究选择了七组常用的抗生素作为模型化合物,这些抗生素也是环境中常见的污染物。这些类别包括头孢类、四环素类、喹诺酮类、碳青霉烯类、磺胺类、大环内酯类和甲氧苄啶乳酸盐。总共通过CV在不同pH值(6、7和8)下获得了61个E?/?值,确保实验数据的高准确性和可重复性。基于实验数据,使用量子化学和分子结构描述符构建了11个QSAR模型,以预测抗生素的氧化还原行为,并进行了比较。方法上,本研究通过系统评估10种不同的ML算法,从传统线性模型到集成和核方法,构建QSAR模型。这允许进行稳健的比较分析和确定最优预测策略。此外,通过Shapley Additive Explanation(SHAP)方法进行模型解释,提高了透明度,并增强了对描述符对红ox行为影响的理解,这是以往QSAR方法中常常缺乏的。据我们所知,这是首次结合ML和DFT方法构建抗生素的QSAR模型,以识别其分子结构对电化学特性的影响。本研究的发现可能有助于理解抗生素的电化学行为与其在(生物)电化学系统中的降解效率之间的关系。

本研究的方法部分涉及实验设置和数据集构建。所有测试的抗生素均采用分析级化学品,溶液使用超纯Milli-Q去离子水(≥18 MΩ cm)制备。在0.05 M磷酸缓冲液(pH 7.0)中测试,缓冲液的组成包括2.69 g NaH?PO?·H?O和4.33 g Na?HPO?。通过添加0.2 M HCl或0.2 M NaOH调整pH至6.0或8.0。所有化合物的浓度为450 μM,除了MERO,其使用浓度为300 μM。CV测量使用Multi EmStat 3+ Potentiostat进行,控制MultiTrace v.4.4软件。实验采用三电极系统,包括BDD作为工作电极(WE),Ag/AgCl饱和KCl参比电极(RE)和石墨棒作为对电极(CE)。BDD电极由Niob作为基底(2 mm厚度)和5 μm BDD层组成。所有电极通过不锈钢螺栓、螺母和电线连接,确保电极表面无残留。实验过程中,使用N?气进行脱气处理,维持无氧环境。所有实验在30 ± 2 °C下进行,CV电位范围为-1.3至1.5 V,扫描速率为0.005 V/s。pH测量使用pH计进行。

为了确定E?/?,本研究通过计算第一导数(di/dE)并识别循环伏安图的氧化和还原扫描峰值电位,来分析E?/?。E?/?被定义为极限电流的一半,可以通过计算第一导数并确定氧化和还原扫描的峰值电位。由于测量数据在第三循环后表现出准稳态条件,因此E?/?基于第三循环进行计算。在计算导数之前,对曲线进行数据平滑处理,以消除噪声,防止导数曲线出现异常波动。数据平滑使用Savitzky-Golay方法(多项式阶数:2,窗口点数:5)在Origin 2024b中完成。

本研究构建了基于量子化学和分子结构描述符的QSAR模型,以预测抗生素的氧化还原行为。首先,使用SW-MLR方法筛选重要描述符,随后通过递归特征消除(RFE-SVM)进一步优化。SW-MLR分析使用SPSS v24进行,而RFE-SVM使用SVM线性核作为基估计器。通过交叉验证评估特征重要性,模型迭代地移除最不相关的描述符,直到选出最优的四个描述符。所有模型中描述符的数量保持一致,以更好地比较模型性能。此外,使用SHAP分析来解释模型,从而增强对特征影响的理解,这是以往QSAR方法中较为缺乏的。通过Bayesian优化策略,进一步调整模型的超参数,以提高其性能。

本研究的结果表明,通过CV实验测定了23种抗生素的E?/?值,其中大部分表现出较高的E?/?值(>0.9 V),表明其在测试条件下对氧化的敏感性较低。头孢类抗生素表现出最大的E?/?值变化范围(pH 7时为0.9到1.3 V),这可能与其不同的官能团和结构多样性有关。相比之下,喹诺酮类和碳青霉烯类抗生素表现出相似的电位,表明它们具有相似的电化学行为。四环素类抗生素是唯一在pH 7时E?/?值范围为0.7到0.8 V的类别,这反映了其在测试条件下的相对较低的电化学反应性。此前研究显示,头孢类抗生素CTX和CXM的7位Δ3-头孢环上的氨基噻唑取代基是电活性基团,负责阳极氧化,这与观察到的正E?/?值一致。相比之下,CFS的特殊电化学行为可能与其β-内酰胺环3位的p-氨基吡啶-2-羧酰胺基团有关。这种电子缺乏的芳香侧链可能作为离去基团,在电化学条件下促进还原。

对于SW-MLR模型,负系数的SpMax_AEA(ed)、qH?和GATS4i表明这些描述符与抗生素的E?/?值呈反向关系,而SpMax_AEA(dm)对E?/?值有正向影响。虽然SpMax_AEA(ed)和SpMax_AEA(dm)都是从增强边邻接矩阵中衍生的拓扑描述符,但由于其不同的权重方案,导致与E?/?值的相反相关性。SpMax_AEA(ed)主要捕捉分子的连通性和拓扑复杂性,更高的值反映了增加的分子连通性,这可能促进电荷传输或稳定氧化中间体,从而降低E?/?值,导致观察到的负相关性。相比之下,SpMax_AEA(dm)反映分子的电子不对称性和极性,更高的SpMax_AEA(dm)值表明负电荷的更分散,稳定分子,减少电子供体倾向,与更正的E?/?值相一致。电荷描述符qH?反映了分子的电荷分布,该描述符与分子中最带正电的原子有关,通常是连接电子受体的。更高的qH?值表明更大的电子缺乏和极化,这可能促进氧化还原反应,从而导致更低的氧化还原电位。

SHAP理论被用于解释获得的AdaBoost模型。Beeswarm图被广泛用于可视化特征的重要性,识别特征是否与模型中的E?/?值呈正向或负向关系。如果特征值和SHAP值变化方向相同,则该特征与E?/?值呈正向关系。变化方向相反则表明该特征对抗生素的氧化还原电位有负向影响。对于单个描述符,点的分布越广,其对目标值的影响越大。从图5a可以看出,描述符qH?、SpMax1_Bh(v)和JGT与E?/?值呈负向关系,而RBF则与E?/?值呈正向关系。特征中点更集中在零值附近,表明其对预测的影响较弱。在四个描述符中,qH?的重要性最高,其次是RBF。虽然qH?在SW-MLR和非线性ML模型中均表现出负向关系,但在后者中,它对E?/?预测的贡献更为显著,位列AdaBoost模型的首位,而在SW-MLR模型中位列第三。RBF是通过分子中可旋转键的数量除以分子中键的总数计算的,通常,具有更多可旋转键的分子更容易发生构象变化,增加分子的灵活性。这种灵活性可能在电子转移过程中导致更显著的结构重组,从而提高重组能,导致更高的氧化还原电位。相比之下,SpMax1_Bh(v)是Burden矩阵加权于范德华体积的最大特征值,反映分子的大小和分支。更高的值表明更大的分子体积和更多的分支,这可能降低HOMO-LOMO能量间隙,使电子更容易从分子中移除,这与更负的E?/?值相一致。全球拓扑电荷指数JGT是分子整体电荷转移的度量,反映分子中各原子对之间的电荷转移总和。类似的,更高的JGT值表明更多的分子分支和更短的主链,这可能导致电子转移速率的显著增加,即更负的E?/?值。

为了评估SW-MLR和ML模型的应用领域(AD),使用标准化残差(δ)与杠杆值(h)的Williams图进行分析。对于SW-MLR模型,几乎所有化合物都位于h ≤ 0.326(警告杠杆值h*)和|δ| ≤ 3的区域内,除了CLA和CXM,这表明了模型的适当预测能力。相比之下,AdaBoost模型显示出更好的预测能力,因为大多数化合物具有较低的δ,仅发现一个异常值,即环丙沙星(CIP)。异常值可能由于描述符的不足而存在。在SW-MLR和AdaBoost模型中,分别观察到三个和五个高杠杆点,这表明这些抗生素的结构与训练数据集中的结构存在较大差异,从而使得模型更加稳定和精确。

本研究的结论表明,通过CV实验测定了七类抗生素的E?/?值,其中大部分显示出较高的E?/?值(>0.9 V),表明其在测试条件下对氧化的敏感性较低。头孢类抗生素显示出最高的E?/?值(0.9到1.3 V),而四环素类显示出最低且分布较窄的E?/?值(0.7到0.8 V),反映了其相似的氧化还原行为。E?/?值通常随着pH值的增加而降低,这表明符合能斯特行为,特别是在磺胺类和四环素类抗生素中。为了研究分子结构对E?/?的影响,构建了SW-MLR和基于AdaBoost的ML模型。这两个模型均表现出良好的拟合度、稳健性和预测能力。特别是非线性模型(AdaBoost)在捕捉分子结构与E?/?之间的关系方面具有更强的能力,其中qH?、RBF、SpMax1_Bh(v)和JGT是最重要的描述符。由于E?/?可能反映抗生素在(生物)电化学系统中的氧化还原稳定性和转化潜力,因此构建的模型为预测各种有机污染物的氧化行为提供了有前景的工具。基于确定的E?/?值,四环素类抗生素的(生物)电化学氧化可能性大于磺胺类,磺胺类又大于碳青霉烯类,碳青霉烯类大于喹诺酮类,喹诺酮类又大于头孢类。然而,这一结论必须在(生物)电化学降解实验中进行验证,以最终证明模型预测。随后,模型可以扩展到包括其他污染物,如农药和多环芳烃。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号