《Journal of Hazardous Materials》:Monitoring Heavy Metal(loid) Concentrations in Soils of Industrially Contaminated Sites Using Machine Learning Models
编辑推荐:
机器学习在工业污染场地土壤重金属监测中的应用及进展。系统综述2014-2025年91项研究,发现Cu、Pb、As等8类重金属最常被分析,环境协变量和光谱数据分别占35%、56%。随机森林模型最优(54.29%),支持向量机、PLSR次之(均≥40%)。应用涵盖浓度预测、驱动因子识别、三维空间分布及时空演变分析,但存在数据量不足(<200样本为主)等挑战。
邹全|韩振阳|何亮|曹伟杰|岳晓东
上海大学环境与化学工程学院,中国上海200444
摘要
工业场地土壤中的重金属(类金属)污染是一个全球性的环境问题。传统的土壤重金属(类金属)浓度监测方法受到效率低下、成本高昂和流程耗时的限制。近年来,由于机器学习(ML)在非线性建模和高效数据处理方面的强大能力,其应用日益增多。本文系统综述了2014年至2025年间发表的91项利用ML监测受污染场地土壤中重金属(类金属)浓度的研究。分析显示,Cu、Pb、As、Cd、Zn、Cr、Ni和Hg是最常研究的重金属(类金属)。根据所使用的输入数据类型,这些研究分为两部分:基于环境协变量的研究(35项)和基于高光谱数据的研究(56项)。在基于环境协变量的监测中,随机森林(RF)在54.29%的研究中被确定为最佳模型;在基于高光谱数据的监测中,支持向量机(SVM)、RF和偏最小二乘回归(PLSR)是最常用的建模算法,每种算法至少在40%的研究中得到应用。基于ML的土壤重金属(类金属)浓度监测包括预测浓度、识别积累驱动因素、表征空间分布、分析时空演变以及构建三维(3D)分布模式。本文概述了ML的应用流程、最优或常用的建模算法以及代表性应用案例,并讨论了该领域的当前挑战和未来前景。
引言
土壤是人类、动物和整个生态系统“健康”的重要基础[1]。工业扩张和城市化加速导致工业废物排放增加,从而显著提高了土壤污染风险[2]。目前识别出的大多数受污染场地源于持续的或历史上的工业和采矿活动,导致土壤中重金属(类金属)的积累[3]、[4]、[5]、[6]。高浓度的重金属(类金属)会损害环境和人类健康[4]、[7]、[8]、[9]。例如,土壤中的砷污染会降低肥力和作物产量[10];过量的铅暴露会严重损害生物的繁殖能力和认知发展[4];镉过量暴露会导致肾衰竭[11];镍暴露会增加癌症发病率[11];锌会引起恶心、呕吐和腹痛[11]、[12];铜会加重肝脏和肾脏的负担[4]、[13]。因此,准确监测受污染场地土壤中的重金属(类金属)浓度对于评估污染风险和制定有效的污染控制及环境修复策略至关重要。
传统的土壤重金属(类金属)监测依赖于实验室化学分析[7]、[14]。虽然这种方法准确性高,但受到效率低下、成本高昂和流程耗时的限制[7]。近年来,由于机器学习(ML)具有成本效益、强大的分析能力和出色的泛化性能,在环境污染研究中得到了广泛应用[15]。ML强大的非线性建模能力和鲁棒性使其能够有效处理高维数据,并揭示隐藏的模式和关系[16]。这些特点为监测土壤重金属(类金属)浓度带来了显著优势,对污染评估和管理具有重要意义。机器学习在环境科学中的广泛应用、深度学习(DL)的兴起以及计算能力的提升推动了复杂ML架构的发展,为监测土壤重金属(类金属)提供了新的技术途径[14]、[17]。例如,将ML与环境协变量结合使用可以识别土壤重金属(类金属)积累的驱动因素[18]。此外,将ML与高光谱技术或专题地图结合使用可以表征区域尺度上的土壤重金属(类金属)空间分布,通常比传统的地质统计插值方法(GIMs)具有更高的预测准确性[19]、[20]。
以往的研究主要集中在ML在土壤重金属(类金属)污染监测中的应用[21]、[22]、[23]、[24],以及ML在土壤污染控制中的应用[25]、[26]。与以往关注城市土壤[24]或更广泛区域尺度土壤[23]的综述不同,本文系统综述了专门将ML模型应用于工业污染场地(如矿区、工业区和废弃工厂)监测重金属(类金属)浓度的研究,填补了该领域的空白。此外,本文详细阐述了利用环境协变量和高光谱数据进行工业场地土壤重金属(类金属)监测的应用流程、最优/常用ML模型,并深入讨论了具体应用,如浓度预测、积累驱动因素识别、空间分布表征、3D分布模式和时空演变分析。最终目标是促进ML在受污染场地土壤重金属(类金属)监测中的实际工程应用。本文的具体结构如图1所示。
文献综述
文献收集
为了系统全面地回顾有关利用ML监测受污染工业场地土壤中重金属(类金属)浓度的已发表文献,选择了Web of Science(WOS)和Scopus数据库作为期刊文章搜索的核心来源。具体采用了四种关键词的组合,即“机器学习”、“工业污染场地”和“浓度”进行检索。
重金属(类金属)的选择
本节探讨了在受污染场地土壤监测中研究的重金属(类金属)类型及其在91项研究中的出现次数和频率(图4)。最常研究的重金属(类金属)是Cu、Pb、As、Cd、Zn、Cr、Ni和Hg,出现次数和频率分别为48(52.75%)、44(48.35%)、43(47.25%)、36(39.56%)、36(39.56%)、32(35.16%)、22(24.18%)和11(12.09%)。韩等人[38]也得出了类似的结论。
机器学习简介
机器学习(ML)被定义为“基于样本数据(称为‘训练数据’)构建模型以进行预测或决策的算法,而无需明确编程”[63]。与传统方法相比,ML能够更准确、更高效地分析大型数据集,同时揭示隐藏的模式和关系[64]、[65]。ML中常用的编程语言包括Python、R、Java和MATLAB,其中Python应用最为广泛[14]、[66]。ML主要包括四个主要组成部分
利用ML监测受污染场地土壤中重金属(类金属)浓度的应用
传统的基于实验室的化学分析方法主要包括电感耦合等离子体质谱法(ICP-MS)[8]、[91]、原子荧光光谱法(AFS)[8]、[16]和原子吸收光谱法(AAS)[92]。尽管这些方法测量精度高,但受到耗时的样品制备和测量过程、高昂的成本以及潜在的二次污染的限制,这些因素增加了成本和复杂性结论
- (1)
在利用ML模型监测受污染场地土壤中的重金属(类金属)浓度时,Cu、Pb、As、Cd、Zn、Cr、Ni和Hg是最常研究的重金属(类金属),主要是因为它们的高毒性和环境持久性。在回顾的研究中,它们的出现次数和频率分别为:Cu(48, 52.75%)、Pb(44, 48.35%)、As(43, 47.25%)、Cd(36, 39.56%)、Zn(36, 39.56%)、Cr(32, 35.16%)、Ni(22, 24.18%)和Hg(11, 12.09%)。
挑战与展望
- (1)
数据的数量和质量是决定ML模型性能的关键因素。确保获得高质量且样本量足够大的数据集对于提高ML模型的预测准确性和鲁棒性至关重要。我们对91项相关研究的回顾显示,大多数研究使用的土壤样本数量少于200个,这突显了现有研究中样本量的普遍限制。这一挑战可以通过研究之间的合作努力来解决
环境影响
工业场地土壤中的重金属(类金属)污染对生态环境和人类健康构成严重威胁。与传统监测方法相比,ML提供了一种高效且经济可行的技术手段来监测土壤中的重金属(类金属)。ML的应用不仅可以有效识别高风险污染区域及其驱动因素,还为环境政策制定和土壤修复管理提供了科学依据。作者贡献声明
曹伟杰:撰写——审稿与编辑。何亮:撰写——审稿与编辑。韩振阳:撰写——审稿与编辑、原始稿撰写、可视化、软件开发、方法论设计、调查实施、数据分析、数据整理。邹全:撰写——审稿与编辑、监督指导、方法论设计、资金争取、概念构思。岳晓东:撰写——审稿与编辑。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文的研究结果。
致谢
本工作得到了国家自然科学基金(项目编号42107402)和国家重点研发计划(项目编号2019YFC1803904)的支持。
术语表
- 缩写
- 全称
- ML
- 机器学习
- RF
- 随机森林
- SVM
- 支持向量机
- PLSR
- 偏最小二乘回归
- DL
- 深度学习
- GIM
- 地质统计插值方法
- LR
- 线性回归
- MLR
- 多元线性回归
- LASSO
- 最小绝对值收缩选择算法
- ERT
极端随机树- GBDT
梯度提升决策树- LightGBM
| Light梯度提升机 | - AdaBoost
| 自适应提升 | - CatBoost
| 分类提升 | - NN
| 神经网络 | - ANN
| 人工神经网络 | - MLP
| 多层感知器 |