用于预测废水再利用中农药植物毒性的可解释机器学习框架:整合分子、量子及实验描述符
《Environmental Pollution and Management》:Interpretable machine learning framework for predicting pesticide phytotoxicity in wastewater reuse: Integrating molecular, quantum, and experimental descriptors
【字体:
大
中
小
】
时间:2025年11月23日
来源:Environmental Pollution and Management
编辑推荐:
本研究构建了整合分子特性、量子化学描述符和环境因素的机器学习模型,显著提升农药植物毒性(EC50)预测精度(R2=0.75),并通过SHAP等可解释性分析揭示关键驱动因素,为安全灌溉提供决策支持。
农药是保障作物生长的重要工具,但其潜在毒性对环境和人类健康构成了重大威胁。尽管已有大量毒理学研究,准确预测农药对植物的毒性(即EC50值)仍然是一个极具挑战性的问题。这一预测难度源于分子特性与环境因素之间复杂的相互作用。传统的预测模型,如定量结构-活性关系(QSAR)方法,通常主要依赖分子描述符,忽略了环境条件对毒性的影响。为解决这一问题,本研究开发了一种可解释的机器学习(ML)框架,该框架结合了分子描述符、量子化学描述符(QCDs)和实验条件,以更全面地评估农药的植物毒性。
随着农业集约化的发展和全球水资源短缺的加剧,农业用水的可持续性成为一个重要议题。农业用水约占全球淡水资源的70%,因此,废水回用作为替代水源在干旱和水资源紧张的地区尤为重要。然而,回用废水往往含有残留的有机污染物,其中农药是最常见的污染物之一。这些农药可能对植物健康、食品安全和生态系统的完整性造成严重影响。传统污水处理厂并未专门设计用于去除低浓度的微污染物,如农药,这导致农药持续排放并积累在农业生态系统中。农药用于控制害虫、病原体和杂草,是农业生产中不可或缺的工具。然而,许多农药在处理后的废水中仍能保持活性,并可能在土壤中累积,影响种子发芽、根系生长和整体植物发育,进而引发植物毒性效应。
因此,理解农药残留对植物的毒性对于确保农业系统中废水的安全和可持续使用至关重要。目前,已有许多研究利用种子发芽和根系生长实验来评估农药的植物毒性,通常以模型植物如生菜(Lactuca sativa)、洋葱(Allium cepa)或黄瓜(Cucumis sativus)为对象。这些生物实验方法因其操作简便、成本低廉和灵敏度高而被广泛应用。然而,这些传统方法在评估多样化的环境污染物时存在局限性,尤其是在高通量筛选方面。由于实验过程耗时、人力密集,它们难以应对不断增长的环境污染物种类。
为了弥补这一缺陷,监管机构鼓励采用替代方法来评估农药的环境风险。近年来,分析化学技术的进步推动了电化学传感器的发展,这些传感器可用于现场检测农药残留。例如,MXenes和基于石墨氮化物(g-C3N4)的复合材料因其高导电性、大比表面积和易于功能化而展现出巨大潜力。这些特性使得它们在环境样本中对有害农药和酚类污染物的快速、灵敏检测成为可能。此外,这些传感器还可与移动平台集成,实现实时监测和即时反馈,为水和食品基质中的农药污染提供便捷的检测手段。
尽管在监测技术方面取得了进展,但将化学信息转化为对毒性的机制性理解的预测工具仍较为有限。机器学习(ML)提供了一种新的建模方法,能够捕捉化学结构与毒性之间的复杂、非线性关系。与传统实验方法相比,ML模型可以快速、低成本地进行预测,并减少对耗时实验的依赖。当结合可解释方法如Shapley Additive Explanations(SHAP)时,这些模型还能提供对毒性机制的深入见解,从而帮助识别高风险化合物。
然而,大多数现有的基于机器学习的毒性模型更注重预测精度,而忽视了模型的可解释性。这种“黑箱”特性使得这些模型在环境风险评估中的应用受到限制,因为监管机构通常需要透明的机制解释。此外,先前的模型很少考虑实验条件,如植物种类、暴露介质或暴露时间,这些条件在决定植物毒性响应中起着关键作用,但在传统的QSAR建模框架中往往被忽略。相比之下,本研究的模型不仅结合了化学结构和量子化学特性,还整合了实验条件,从而实现了对多种植物种类和实验介质的广泛适用性。
本研究的数据库是从公开的ECOTOX数据库和同行评审文献中整理而成,包含270个数据点。每个数据点都包括从种子发芽实验中获得的实验EC50值,以及相应的分子描述符、量子描述符和实验条件。通过这些数据,我们训练了多个监督机器学习模型,并采用10折交叉验证和外部验证方法对模型进行了评估。模型的性能通过标准回归指标进行衡量,包括决定系数(R2)和均方根误差(RMSE)。为了确保预测的可靠性,我们还按照经济合作与发展组织(OECD)指南进行了适用域(AD)分析。此外,为了提高模型的可解释性和监管适用性,我们应用了可解释人工智能(XAI)方法,如SHAP和部分依赖图(PDPs),以揭示影响植物毒性的关键特征。这些方法不仅提供了对植物毒性机制的洞察,还补充了传统QSAR模型中常常忽略的信息。
本研究的模型显示,暴露时间、对数有机碳分配系数(log Koc)和水溶性是影响植物毒性的关键因素。通过局部SHAP分析,我们进一步验证了模型与已知毒理学原理的一致性,表明环境暴露因素如何调节特定化合物的毒性效应。这种结合预测精度与机制透明性的框架不仅是一个筛选工具,更是一个支持环境管理决策的平台。在这一背景下,我们的研究与绿色金融和可持续金融科技(如Khan et al., 2022和Subanidja et al., 2022)等更广泛的技术和金融创新相辅相成,这些创新利用数据驱动的洞察来促进环保实践并降低风险。通过这种方式,我们的方法不仅有助于指导废水的安全使用,还促进了可持续农业系统的建设,为环境决策提供了一种可扩展的解决方案。
在数据收集过程中,我们从农药属性数据库(PPDB)中获取了用于模型开发的农药化合物列表。该数据库提供了丰富的农药化学信息,包括分子结构、理化性质等。随后,我们利用生态毒理学知识库(ECOTOX)查询了实验报告的植物毒性数据。数据提取专注于基于植物的毒性终点,特别是中等有效浓度(EC50)值。这些数据涵盖了多种植物种类和不同的实验介质,确保了模型的广泛适用性。
在数据集分析阶段,我们发现分子性质和结构特征之间存在内在关联,由此衍生的量子化学和结构描述符常常显示出线性或单调的关联性。这种关联性可能导致特征冗余,从而影响监督学习模型的性能和泛化能力。为了解决这一问题,我们进行了配对相关性分析,使用斯皮尔曼等级相关系数(Spearman's rank correlation coefficient),并设定了相关性阈值(|ρ| > 0.80)。通过这一分析,我们能够识别并排除高度相关的特征,以减少模型的复杂性并提高其准确性。
此外,我们还对数据集进行了统计分析,以了解不同农药化合物在植物毒性方面的分布特征。结果显示,某些农药类别,如除草剂、杀虫剂和杀菌剂,在不同植物种类和实验条件下的毒性表现存在显著差异。这表明,植物对农药的敏感性不仅取决于化合物的化学特性,还受到实验条件的强烈影响。因此,在构建预测模型时,必须综合考虑这些变量,以确保模型的全面性和实用性。
在模型构建过程中,我们采用了一系列机器学习算法,包括XGBoost、随机森林和支持向量机(SVM)等。其中,XGBoost模型在测试中表现出最佳的预测性能,其在10折交叉验证中的R2值达到0.69,均方根误差(RMSE)为0.80;在外部验证中,R2值为0.75,RMSE为0.81。这些结果表明,XGBoost模型在预测农药植物毒性方面具有较高的准确性和稳定性。与其他模型相比,XGBoost在处理非线性关系和特征交互方面表现出更强的能力,这使其在复杂数据集中的表现更为优异。
为了进一步提高模型的可解释性,我们采用了SHAP和PDPs等方法。这些方法不仅能够揭示影响模型预测的关键特征,还能帮助理解不同环境条件对农药毒性的调节作用。例如,SHAP分析显示,暴露时间对植物毒性的贡献最大,其次是log Koc和水溶性。这些发现与现有的毒理学知识相吻合,表明农药在环境中的持久性和迁移能力是影响其植物毒性的重要因素。此外,PDPs分析还揭示了不同植物种类对相同农药的响应差异,进一步支持了模型在多物种环境中的适用性。
本研究的成果具有重要的实际意义。首先,它为农药的环境风险评估提供了一种新的工具,使得监管机构能够在不依赖耗时实验的情况下,快速评估农药在不同环境条件下的毒性潜力。其次,该模型能够指导农业废水的处理和回用,确保其在农业生产中的安全性。最后,该框架还为可持续农业实践提供了科学依据,有助于减少农药对环境的负面影响,推动绿色农业的发展。
本研究的创新点在于其对模型可解释性的重视。通过整合量子化学描述符和实验条件,我们不仅提高了模型的预测精度,还增强了其在实际应用中的透明度和可信度。这种可解释性对于环境风险评估和政策制定至关重要,因为它使得模型的决策过程更加清晰,便于不同利益相关者之间的沟通和协作。此外,该模型的多物种适用性也使其在农业废水管理中具有广泛的推广价值。
总的来说,本研究展示了一种结合预测精度和机制透明性的机器学习框架,能够有效评估农药在不同环境条件下的植物毒性。该模型的开发不仅填补了传统QSAR模型在环境条件考虑方面的空白,还为可持续农业和环境管理提供了新的思路和技术手段。未来的研究可以进一步拓展该模型的应用范围,包括不同土壤类型、气候条件和作物种类的毒性评估,以提高其在实际环境中的适用性和可靠性。同时,结合其他先进的机器学习方法和数据收集技术,如深度学习和高通量筛选,也有助于进一步优化模型性能,推动环境毒理学领域的创新发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号