《Journal of Hydrology: Regional Studies》:An integrated interpretable EWQI–stacked ensemble framework with SHAP for hydrogeochemical characterisation, groundwater quality modelling, and seasonal health risk assessment in the hydrogeologically complex middle Benue trough, Nigeria
编辑推荐:
本研究区域为尼日利亚纳萨拉瓦州贝努埃拗陷(Benue Trough)中部。研究聚焦于该地区日益严峻的地下水质量恶化问题,整合水文地球化学分析、熵权水质指数法(Entropy-Weighted Water Quality Index, EWQI)、可解释堆叠集成
本研究区域为尼日利亚纳萨拉瓦州贝努埃拗陷(Benue Trough)中部。研究聚焦于该地区日益严峻的地下水质量恶化问题,整合水文地球化学分析、熵权水质指数法(Entropy-Weighted Water Quality Index, EWQI)、可解释堆叠集成机器学习以及健康风险评估方法,对五个地方政府区域(Local Government Areas, LGAs)的季节性地下水质量动态进行评价。研究共采集600个 dry 和 rainy季节的地下水样本,分析24项参数。水化学相主要包括Na–Cl型、混合Ca–Mg–Cl型和Ca–Mg–HCO?型水,反映了大气降水补给、碳酸盐与硅酸盐风化、阳离子交换及局部人为输入的共同影响。EWQI结果显示Awe和Doma为污染热点区域,雨季地下水质量普遍恶化,亟需管理干预。研究的新水文认识在于:堆叠集成模型在EWQI回归和分类任务中均优于单一机器学习算法,取得了优异的预测性能(R2 = 0.935;RMSE = 9.420)和分类准确率(0.858)。SHAP(SHapley Additive exPlanations)解释分析识别As、Pb、Cd和Mn为地下水恶化的主要驱动因子。SHAP值与危害商(Hazard Quotient, HQ)之间的正相关关系表明,对地下水质量恶化影响最大的污染物对健康风险也产生弱至中等程度的影响。该集成框架为识别水文地质复杂地区的关键污染物、敏感区位和优先干预目标提供了有价值的工具。
该论文发表于《Journal of Hydrology: Regional Studies》,旨在应对尼日利亚贝努埃拗陷中部地区地下水质量日益恶化的环境与公共卫生挑战。研究背景方面,地下水是支撑全球,特别是地表水资源匮乏地区生活、农业和工业活动的关键淡水资源。然而,地下水质量正受到复杂水文地球化学过程和人类活动的双重威胁。水-岩相互作用、矿物溶解、离子交换和氧化还原反应可改变地下水化学性质并释放污染物,而农业集约化、城市化、工业活动及废物管理不当则带来额外的污染负荷。这些叠加压力导致硝酸盐、盐度、微生物污染和有毒金属的广泛出现,尤其在水文地质异质性强且数据匮乏的地区构成重大环境与公共健康风险。传统水质指数(Water Quality Index, WQI)方法往往依赖主观赋权方案,可能引入偏倚并降低可重复性;而熵权水质指数(EWQI)通过基于数据集内信息熵客观赋权,提高了可靠性并减少了主观性。尽管多变量统计和基于指数的方法应用广泛,但其在捕获非线性相互作用、高维依赖关系及复杂污染路径方面能力有限。因此,近年来研究日益转向将水文地球化学表征、地下水质量指数、健康风险评估与机器学习技术相结合,以提升预测能力并支持地下水管理。然而,现有应用多依赖单一模型架构,常作为黑箱系统运行,对驱动预测的水文地球化学过程提供有限洞察;且地下水质量指数编制、预测建模、污染源识别与健康风险评估常作为独立分析模块实施,制约了对地下水恶化机制的综合理解。尽管熵赋权、集成学习和可解释人工智能(如SHAP)等进展为克服上述局限创造了机会,但在尼日利亚贝努埃拗陷等水文地质复杂区域,将这些方法整合于统一框架的研究仍然稀缺。现有尼日利亚及类似水文地质环境中的地下水质量研究主要集中于水文地球化学表征、传统水质指数、地统计制图或独立机器学习模型,鲜有研究将客观熵赋权、可解释堆叠集成学习、SHAP驱动特征归因和人类健康风险评估整合于统一框架。
研究人员开展了以下研究并得出相应结论:该研究开发了可解释的EWQI–堆叠集成框架,能够同时表征地下水质量、识别主导污染驱动因子、量化预测不确定性并评估相关季节性健康风险。具体研究内容与结论包括:(i)季节性地下水质量水文地球化学表征表明,地下水化学演化主要受硅酸盐风化、碳酸盐溶解、离子交换、蒸发和长期水-岩相互作用控制;Na–Cl相在旱季占主导,反映高级矿化和较长滞留时间,而雨季混合Ca–Mg–Cl和Ca–Mg–HCO?相的出现表明补给影响和 renewed 矿物溶解;(ii)EWQI评估证实雨季地下水质量普遍较差,Awe和Doma为污染热点区域;(iii)可解释堆叠集成预测与分类取得高预测精度(R2 = 0.935;RMSE = 9.420)和分类准确率(0.858);(iv)SHAP分析识别As、Pb、Cd和Mn为地下水质量恶化的主导驱动因子;以及(v)季节性非致癌健康风险评估显示主要污染物对儿童的健康风险高于成人。该研究的重要意义在于,将EWQI、可解释机器学习和健康风险评估相结合,为识别污染驱动因子、脆弱区域和季节性风险模式提供了科学透明且可迁移的决策支持框架,支持了地下水质量监测和风险管理。
研究采用的关键技术方法包括:样本来源于2024年旱季(2–4月)和雨季(7–9月)在尼日利亚纳萨拉瓦州五个地方政府区域采集的600个地下水样本(每区域120个,深浅含水层系统兼具),测定24项物理化学和微生物参数;水化学相分析采用Piper三线图和Gibbs图;EWQI基于信息熵理论计算;机器学习采用XGBoost、LightGBM、CatBoost、随机森林(Random Forest, RF)、梯度提升机(Gradient Boosting Machine, GBM)和支持向量机(Support Vector Machine, SVM)六种基学习器,通过Tree-structured Parzen Estimator(TPE)算法优化超参数,基于LGAs的GroupKFold交叉验证策略,以线性元学习器构建堆叠集成模型;模型可解释性采用SHAP(基于合作博弈论)分析;健康风险评估采用慢性日摄入量(Chronic Daily Intake, CDI)和危害商(HQ)模型,并通过Spearman秩相关分析SHAP值与HQ的关联。
研究结果部分:
水文地球化学特征:Piper图揭示五个LGAs在旱季和雨季的地下水化学组成相对一致,但雨季样本点分散度更大,表明增强的补给和溶质迁移。阳离子三角图中,大多数样本聚集于Ca2?顶端,Mg2?贡献较小,Na?+K?主导有限,表明碱土金属(Ca2?+Mg2?)在研究区地下水中占绝对优势。阴离子三角图显示多数样本集中于Cl?顶端,较少样本趋向HCO??+CO?2?场域。中央菱形中,几乎所有样本落入Na–Cl、混合Ca–Mg–Cl和混合Ca–Mg–HCO?水化学相,Na–Cl相为两季最主导类型。雨季样本在混合相场域中离散度略增,反映季节性稀释和不同岩性来源地下水的补给驱动混合。Gibbs图进一步阐明控制地下水化学的机制:阳离子Gibbs图中,大多数样本落于岩石风化区和降水主导区,雨季样本TDS值通常更高、离散度更大;阴离子Gibbs图中,绝大多数样本位于降水主导区,少数延伸至岩石风化区,几乎没有样本出现在蒸发主导区。这表明降雨补给耦合后续矿物溶解控制了地下水化学演化,而非蒸发浓缩。
地下水指标的季节和空间变异性:季节统计和超标分析揭示地下水质量存在显著的时间变异性,大多数参数在雨季表现出更大的离散度。NO??显示最强的季节响应,雨季浓度和超标频率显著增高;EC、TDS和TUR也呈现更宽的雨季变异性。主要阴离子包括HCO??、CO?2?和SO?2?则基本处于容许限内。空间上,污染热点集中于Awe、Doma和Lafia,而Obi和Keana通常污染物水平较低。微生物污染在两季均广泛存在,E. coli和TC计数频繁超标,雨季Awe、Doma和Keana部分地区微生物丰度增加。有毒金属构成最显著的地下水质量问题,Pb、As、Cd、Cr、Mn、Fe、Zn和Cu反复超标,浓度通常在雨季升高。Lafia和Doma以Pb和As浓度升高为特征,Awe则因多种有毒金属同时富集而 emerge 为多污染物热点区域。
EWQI分布与分级:EWQI整合24项参数评估地下水质量。总体而言,地下水呈中度退化(平均EWQI = 93.72),但存在明显季节差异。雨季地下水平均EWQI(110.90)显著高于旱季(76.54),"优良"水质减少,"差"和"极差"类别增加,"优"类别消失。Awe和Doma的EWQI值始终最高,雨季恶化最为显著;Keana、Lafia和Obi水质条件相对较好,但雨季亦出现一定程度退化。Lafia在雨季表现出最宽的EWQI范围和最高记录值(449.34),指示尽管总体水质较好,但存在显著的局部变异性。
相关性和多变量关系:Pearson相关矩阵显示EC与TDS最强正相关(r = 0.986);HCO??、SO?2?、EC和TDS之间存在中度正相关;Ca和Mg呈中度相关(r = 0.641)。有毒重金属中,Pb与As中度相关(r = 0.570),Cr与Zn中度相关(r = 0.505)。EWQI与Cd(r = 0.671)、Pb(r = 0.625)、As(r = 0.546)和Mn(r = 0.452)正相关性最强。主成分分析(Principal Component Analysis, PCA)提取五个主成分,累计解释50.46%的总方差:PC1(18.2%)由EC、TDS、HCO??、SO?2?、Ca2?、Mg2?和EWQI主导;PC2(11.0%)以Cl?、TC和E. coli为特征;PC3(8.48%)具Pb、Cd、As和EWQI强载荷;PC4(8.48%)与CO?2?、Fe、Mn、Ca2?和Mg2?相关;PC5(5.46%)由TUR和NO??主导。
机器学习模型性能——EWQI回归建模:基学习器收敛行为显示,XGBoost、LightGBM、CatBoost和GBM等Boosting算法呈平滑单调的RMSE降低,收敛至较低RMSE;而RF和SVM残差较高、收敛稳定性较差。定量指标显示CatBoost基学习器性能最优(R2 = 0.930;RMSE = 9.465;MAE = 6.753),其次为SVM(R2 = 0.913;RMSE = 10.533)和XGBoost(R2 = 0.912;RMSE = 10.636)。堆叠集成模型显著优于所有基学习器,实现最高解释力(R2 = 0.935)和显著降低的预测误差(RMSE = 9.420;MAE = 6.625),相对于基模型将预测RMSE降低约0.54–4.82%。雷达图比较显示堆叠集成在最大化R2和NSE同时最小化RMSE和MAE方面具有最均衡的轮廓。Obi LGA的观测-预测图显示堆叠集成预测紧密分布于1:1参考线周围。
EWQI分类建模:堆叠集成模型亦实现最优分类性能,准确率0.858、宏精确率0.660、宏召回率0.711、宏F1分数0.682,表明高分类能力和跨水质类别的均衡敏感性。SVM(0.792)、CatBoost(0.792)和XGBoost(0.792)保持相对较高总准确率,但宏召回率和宏F1分数较低。混淆矩阵显示堆叠集成具有强对角优势,"中等"(类别2)和"差"(类别3)类别正确预测尤为突出;多数分类错误发生在相邻EWQI类别之间。
LGA特异性EWQI预测、不确定性和误分类分析:堆叠集成模型在所有五个LGAs保持强预测性能。Keana预测性能最强(RMSE = 4.08;MAE = 3.32;偏倚≈?0.45),Obi最具挑战性(RMSE = 9.42;MAE = 6.62;95%预测区间覆盖率77.5%)。预测区间覆盖率总体较高(77.5–99.2%),偏倚范围?0.45至+4.98。残差直方图接近零中心且近似正态分布;外部验证数据集残差基本分布于零误差线周围,高EWQI值处变异性略有增加。
SHAP解释堆叠集成框架:SHAP分析为地下水质量预测的驱动因子提供机制性洞察。对于EWQI回归,As、Pb、Cd和Mn emerge 为占主导的预测因子,分别贡献30.0%、22.3%、21.9%和11.3%的总SHAP重要性,四者合计约占85.5%的模型预测力。Zn、Cr和Fe构成次重要影响组,其余变量个体贡献均低于2%。EWQI分类中,As(28.2%)、Pb(24.1%)、Cd(12.7%)和Mn(11.2%)仍是最具影响力的预测因子,联合解释76.2%的总特征重要性。依赖图显示As和Pb与模型输出呈现最强单调关系(ρ = 0.805和0.821),特征为标准化浓度阈值附近从负SHAP值到正SHAP值的急剧转变,表明存在临界浓度范围;Cd显示类似的阈值控制响应(ρ = 0.624),但转变更渐进;Mn则表现渐进非线性增长(ρ = 0.616),提示累积效应。
SHAP–HQ模型重要性与危害商的关联:Spearman秩相关分析显示污染物SHAP重要性与对应危害商值之间存在统计学显著的正相关(ρ = 0.430, p < 0.05),支持模型导出预测因子重要性与健康风险相关性之间的部分对齐。单污染物水平,最强正SHAP–HQ相关见于Fe(ρ = 0.719)、Zn(ρ = 0.706)、Pb(ρ = 0.628)、Cr(ρ = 0.589)和As(ρ = 0.555)。Mn(ρ = 0.383)和Cd(ρ = 0.380)为中度但统计学显著相关。Cu、F?和NO??则表现为弱相关或无关。LGA-季节尺度的分组SHAP–HQ关联分析显示所有评估组合均为正相关,最强关联见于Awe旱季(ρ = 0.564)和雨季(ρ = 0.552),其次为Lafia雨季(ρ = 0.491)和Keana旱季(ρ = 0.467)。
讨论部分总结:水文地球化学对地下水质量的控制方面,Ca2?在阳离子三角图中的主导地位指示碳酸盐矿物溶解、钙-bearing硅酸盐矿物风化和交换反应是主要影响;Na–Cl相的普遍性反映沿较长滞留时间的显著地球化学演化;雨季样本更大离散度表明季节性补给增加含水层水力连通性、 mobilize 先前积累的溶质并增强浅层新近补给地下水与深层地下水的混合。季节性地下水恶化驱动因素方面,研究表明地下水恶化主要由补给增强的污染物迁移驱动而非单独稀释;雨季EC、TDS、TUR、NO??、TC、E. coli和多种有毒金属浓度增加,表明入渗补给水污染物从地表向含水层系统迁移的促进作用;微生物污染与NO??富集的共存进一步指向人类活动影响。空间异质性与人为影响方面,EWQI空间分布显示Awe和Doma为地下水质量热点,特征是NO??、TC、E. coli和As、Pb、Cd、Mn高浓度共存;Keana和Lafia部分地区EWQI值相对较低,反映较低污染压力或更有利的水文地质条件。多变量控制方面,PCA结构确认地下水质量受矿物风化、有毒金属富集、微生物污染和季节性补给过程相互作用控制。堆叠集成学习模型性能方面,比较评价显示基于Boosting和Stacking的集成算法对建模控制EWQI变异的复杂非线性关系具有优越性;CatBoost基学习器实现最高预测性能,但堆叠集成产生最佳整体结果;空间验证显示Keana和Doma预测误差较低,Obi和Awe不确定性相对较高。SHAP可解释性与SHAP–HQ关联方面,SHAP分析揭示As、Pb、Cd和Mn对EWQI变异性产生不成比例影响,表明地下水脆弱性更强地受毒理学污染物而非传统理化指标控制;SHAP重要性与非致癌健康风险指标的对齐是关键发现,识别出的最强预测因子通常对应于健康风险贡献最大的污染物。地下水监测与管理启示方面,研究表明有效监测应从广泛区域平均转向基于风险的靶向监测,重点关注浅层含水层和补给关联区域;As、Pb、Cd和Mn应作为核心监测指标提升;季节性采样必不可少;综合缓解策略应结合卫生改善、井口完整性保护、农用化学品使用管控和脆弱补给区废物处置严格监管。
研究结论翻译:本研究利用水文地球化学分析、EWQI、可解释堆叠集成机器学习和人类健康风险评估,对尼日利亚纳萨拉瓦州贝努埃拗陷的地下水质量和季节性风险动态进行了综合评估。研究结果展示了地下水质量明显的空间和季节异质性,受岩性控制、水-岩相互作用、人类活动和补给驱动污染物迁移的共同影响。水文地球化学表征表明,地下水演化主要受硅酸盐风化、碳酸盐溶解、离子交换、蒸发和长期水-岩相互作用控制。Na–Cl相在旱季占主导,反映高级矿化和较长滞留时间,而雨季混合Ca–Mg–Cl和Ca–Mg–HCO?相的出现表明补给影响和 renewed 矿物溶解。然而,雨季持续的Na–Cl信号表明部分含水层系统存在不完全稀释和持续盐化过程。EWQI结果证实雨季地下水质量普遍较差,表明补给不仅是稀释机制,也是污染物迁移的驱动因素。空间上,Awe和Doma emerge 为关键热点区域,特征是升高的硝酸盐、微生物污染和重金属,与农业投入、卫生设施不足和废物入渗相关。相比之下,Keana和Lafia部分地区表现出相对较好的地下水条件,反映较低的污染物压力和更有利的水文地质环境。堆叠集成模型为EWQI估算和地下水质量分类提供了高预测精度,优于单一机器学习模型。SHAP解释进一步识别砷、铅、镉和锰为地下水恶化的主导驱动因子。SHAP输出与危害商的对齐表明,倾向于预测中最有影响的污染物也呈现弱至中度的人类健康风险,增强了框架的环境有效性。总体而言,该研究表明结合EWQI、可解释机器学习和健康风险评估,为识别复杂含水层系统中的污染驱动因子、脆弱区域和季节性风险模式提供了 robust 且决策相关的框架。实践中,研究结果支持针对有毒重金属的靶向监测和管理,特别是在Awe和Doma,同时加强卫生设施、废物控制和补给区保护。关键局限在于对特定地点训练数据和离散季节性采样的依赖,这限制了时间分辨率并将模型泛化性约束于其他水文地质环境。未来研究应整合高频监测、将污染物覆盖扩展至新兴污染物,并整合 mechanics 微生物迁移建模。最重要的是,建模框架的可转移性应通过迁移学习或域适应方法加以改进,使训练模型能够针对数据有限的新区域进行重新校准,同时保留学习的水文地球化学-风险关系。这将增强其在多样气候和地质环境中的可扩展性和适用性。总之,该框架为地下水质量评估和风险优先排序提供了可转移且可解释的决策支持工具,具有较强潜力适应于其他数据有限、污染易发的含水层系统。