《Journal of Hazardous Materials》:Machine Learning Framework to Enhance the Predictive Performance of the Relative Availability of Heavy Metals in Soils around a Gold Mine in Hainan Island
王晓宇|曲雅静|车菲菲|赵文豪|高一飞|马进|吴凤昌
中国环境科学研究院环境标准与风险评估国家重点实验室,北京100012,中国
摘要
受重金属(HMs)污染的土壤,尤其是在矿区周围,对环境构成了威胁。传统的机器学习(ML)建模侧重于编程实现和大规模环境数据,这限制了ML预测模型的实用性。本研究提出了一个结合数据增强技术的多算法ML建模框架,用于准确预测海南岛某金矿周围土壤中铅(Pb)、镉(Cd)和砷(As)的活性比值(RA)。基于这三种重金属的土壤调查数据,将监督学习和无监督学习算法集成到该框架中。结果表明,改进后的模型,尤其是最终模型,在训练集和测试集中的表现都优于初始模型,预测三种重金属活性比值的R2值超过了0.81,表明数据增强策略有效减轻了ML建模中数据冗余的问题。敏感性分析和二维偏依赖性分析表明,每种重金属的现有形式中,敏感性得分超过30%的特征是对活性比值预测影响最大的。此外,在不同条件下,三种重金属的活性比值还受到其他因素的影响,其中ΔX、pH值和纬度分别对铅、镉和砷的活性比值有显著影响。从机制上看,铅的活性比值可能受到大气沉降带来的外源性铅的影响;镉的活性比值主要受到当地多因素协同作用的影响;而砷的活性比值则与金矿开采活动密切相关,从而阐明了金矿周围土壤中这三种重金属的污染模式。此外,还基于所提出的框架开发了一个在线土壤质量评估工具,方便编程能力有限的用户使用。这些发现突显了多算法集成在环境ML建模中的关键作用,因此本研究为土壤管理实践(如污染评估、缓解策略制定和修复措施实施)提供了坚实的科学基础。
引言
由于中国近几十年的快速社会经济发展,自然资源开采等工业活动大幅扩张[1],[2],高强度的采矿活动进一步加剧了土壤重金属(HM)污染[3]。一项涵盖70个矿区、1,672个土壤采样点的全国性调查显示,重金属超标率约为33.3%[4],凸显了中国矿区土壤中重金属污染的严重性。值得注意的是,长期的重金属污染不仅会破坏周边生态系统,还会威胁农作物生产安全[5],最终对人类健康构成潜在风险[6]。这些发现强调了及时监测和分析土壤中重金属污染动态的迫切需求。
此外,中国约16%的土壤样本中重金属或类金属的含量超过了允许限值,19%的农业用地受到不同程度的污染[7],显示出全国范围内土壤重金属污染的严峻状况。王等人[1]报告称,由于严重的土壤重金属污染,钢铁工业周边地区的农产品不适合食用,尤其是对儿童而言。另外,一项针对金矿冶炼区的源导向风险评估定量确定了重金属为优先控制污染物[2]。研究表明,过量的土壤重金属,尤其是铅(Pb)、镉(Cd)和砷(As),容易被植物吸收[8],从而导致累积毒性,并通过食物链进入人体[1]。值得注意的是,镉和铅会在人体组织中迅速积累,对肾脏和生殖系统产生不良影响,尤其是对儿童[8]。此外,砷具有高毒性,可导致皮肤病变、损害肝脏和肺功能,甚至引发癌症[1]。由于其不可降解性、生物累积性和高毒性[9],美国环境保护署和中国生态环境部将铅、镉和砷列为优先控制化学品[2],[10]。因此,开发可靠的土壤重金属污染预测模型对于支持污染识别和管理、保护人类健康至关重要。
机器学习(ML)作为人工智能的一个重要分支,已被广泛应用于通过有效识别大型数据集中的隐藏数据模式来预测土壤重金属污染[11],[12]。例如,徐等人[9]提出了一种结合空间双变量分析和随机森林模型的创新方法,利用河南省的农业土壤数据识别高风险重金属污染区域及其关键影响因素。Proshad等人[6]设计了结合异常检测技术的ML模型,用于预测Narayanganj地区的土壤重金属污染情况。他们比较了十种ML模型与三种异常检测技术结合使用对土壤重金属浓度预测准确性的影响,并验证了异常值确实会降低模型的预测性能。为了深入理解土壤中重金属的环境行为,谢等人[13]通过提升集成策略开发了一套ML模型,用于预测全国范围内铅、镉和砷的生物可利用性,为土壤环境管理奠定了基础。尽管ML方法取得了显著成果,但目前基于ML的土壤重金属污染研究仍面临一些紧迫挑战。首先,以往的研究主要集中在总重金属浓度上,忽视了可利用重金属浓度带来的危害。这种忽视扭曲了研究结果,无法准确评估重金属对土壤、作物和环境的实际损害[3。其次,大多数建模相关研究遵循传统的“数据收集-建模-预测”范式,对数据增强(如数据收集成本优化、异常检测和降维)的关注不足。因此,使用大量数据开发的模型缺乏可解释性,并在实际应用中受到数据获取的限制。第三,现有的模型对于编程技能有限的用户来说难以使用,从而限制了其实用性。
本研究旨在(a)开发一个结合监督学习和无监督学习的ML建模框架(图1),用于预测海南岛某金矿周围土壤中铅、镉和砷的相对含量;(b)通过敏感性分析和偏依赖性分析分别评估模型输入变化对模型输出的独立影响和交互作用;(c)增强基于所提框架构建的Web应用程序的公众服务。以海南岛某金矿周围的土壤重金属污染为例,本研究整合了多种ML算法,为基于ML的环境研究提供了新的见解,同时弥补了以往研究中交互作用分析不足的空白。此外,通过关注土壤污染调查中易于获取的特征变量(如土壤污染物和物理化学性质),本研究减少了大量数据收集的相关成本。最终,这项研究为政策制定者提供了一个关键的土壤质量评估工具,有助于协同分析和管理金矿周围土壤中铅、镉和砷的相对含量。
数据采集
长江自治县位于海南岛西部,地理坐标为北纬18.88°至19.50°,东经108.63°至109.28°。由于该地区经济欠发达,主要发展了传统农业和采矿产业(如金矿开采)。因此,这些产业带来的大规模经济发展导致了土壤中的重金属污染。在該地区东南部的一个金矿区(GZ)附近收集了193个土壤样本
土壤质量评估
所有FV的描述性统计数据和分布情况见表1和图S2。土壤物理化学性质的变异系数(CV)从高到低排序为:SM(66.07%)> CEC(51.93%)> OM(43.69%)> PSF(42.72%)> PSN(36.65%)> PSS(19.58%)> pH(15.03%),反映了研究区域内土壤物理化学性质的空间异质性[34]。与赵等人的研究结果一致[35],这些土壤呈微酸性(pH 6.12 ± 0.92)。中位数如下
结论
本研究开发了一个结合数据增强技术的多算法ML建模框架,用于重金属相关的土壤质量评估。该框架结合了基于海南岛某金矿周围土壤中铅、镉和砷的调查数据的监督学习和无监督学习算法。多次交叉验证分析表明,折叠次数会导致ML模型性能的波动。尽管如此,改进后的模型,尤其是最终模型,在
环境影响
土壤重金属污染对环境安全构成了严重威胁。随着中国采矿活动的加剧,迫切需要探索快速预测矿区土壤污染的方法。传统方法受到大量数据和高级编程技能要求的限制。本研究提出了一个多算法机器学习建模框架,以准确评估重金属的相对含量
CRediT作者贡献声明
吴凤昌:概念构思、监督。车菲菲:概念构思、调查、监督、撰写 – 审稿与编辑。赵文豪:软件、方法论。高一飞:资源获取、调查、数据管理。王晓宇:撰写 – 初稿撰写、软件使用、调查、数据分析、数据管理。曲雅静:软件使用、调查。马进:撰写 – 审稿与编辑、监督、方法论制定、资金筹集、概念构思。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
致谢
本工作得到了中国国家重点研发计划(2023YFC3708701)和中国国家自然科学基金(42177221)的支持。