
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于混合集成学习的快速经济地下水质量评估模型开发及其在健康风险预测中的应用
【字体: 大 中 小 】 时间:2025年07月21日 来源:Ecotoxicology and Environmental Safety 6.2
编辑推荐:
推荐:为解决地下水质量评估(WQI)和健康风险指数(HI)预测中存在的输入变量冗余、成本高及精度不足等问题,研究人员开发了基于SHAP特征选择和XGB元学习器的混合集成模型(Stacking/Blending/Averaging)。结果表明,Stacking模型预测精度显著优于传统方法(WQI平均R2=0.966,HI平均R2=0.835),同时将检测成本降低53.5%,为政府制定地下水管理政策提供了高效工具。
在全球范围内,地下水是近25亿人口唯一的饮用水源,但发展中国家每年有超过220万人因饮用受污染水源而死亡。中国华北平原作为典型的高氟地下水分布区,长期摄入高氟水会导致骨质疏松、癌症等慢性疾病。传统的地下水质量指数(WQI)和健康风险指数(HI)评估方法需要检测大量水质参数且计算复杂,而现有机器学习方法又面临输入变量冗余和预测精度不足的双重挑战。
针对这一难题,中国科学技术大学的研究团队在《Ecotoxicology and Environmental Safety》发表研究,开发了一种基于混合集成学习的快速、低成本、高精度地下水评估模型。研究人员首先通过SHAP值和Pearson相关系数筛选最优特征组合,发现TDS(总溶解固体)是预测WQI的最关键指标,而Na+和Ca2+对HI预测最具影响力。随后从12种机器学习算法中优选基学习器,最终采用XGBoost(XGB)作为元学习器构建了Stacking、Blending和Averaging三种集成模型。
关键技术包括:(1)基于433个地下水样本的SHAP特征重要性分析;(2)采用5折交叉验证的Stacking集成策略;(3)通过100次重复实验结合t检验的模型稳定性评估。研究结果显示,Stacking集成模型在测试集上对WQI和HI的预测精度(R2分别为0.966和0.835)显著优于传统方法,验证集表现同样出色(R2分别为0.921和0.714)。
【特征组合选择】
通过对比SHAP与Pearson方法发现:TDS、HCO3–、Mg2+、SO42-是WQI预测的最佳特征组合,仅用4个参数即可达到R2=0.940;而Na+、Ca2+、Mg2+、HCO3–组合对HI预测效果最优。SHAP方法在减少输入变量数量方面表现更优,将检测成本从636.03元/点降至295.68元/点。
【基学习器筛选】
从12种算法中筛选出9种WQI基学习器(CatBoost/ERT/GBTR等)和8种HI基学习器(AdaBoost/CatBoost等),其中极端随机树(ERT)作为最佳单模型,WQI和HI预测R2分别达0.961和0.833。
【集成模型性能】
Stacking模型展现出三项优势:(1)预测精度最高,WQI的RMSE(3.733)显著低于Blending模型(4.425);(2)稳定性较好,R2方差(0.0029)低于Blending模型(0.0180);(3)时空扩展性强,在跨年度验证中保持优异表现。而Blending模型因元学习器过拟合问题表现最差,改用线性回归(MLR)作为元学习器后性能有所提升。
该研究的创新性体现在三个方面:首次将混合集成学习应用于地下水健康风险评估;开发了结合统计检验的模型评估新范式;通过SHAP特征选择实现了"降维不降精度"。研究成果已应用于安徽淮北平原的地下水管理实践,通过插值分析绘制的水质热图可直观识别高风险区域,为政府划分水源功能区、实施集中供水等干预措施提供了科学依据。未来可通过融合遥感数据进一步减少实地采样需求,并将该框架拓展至重金属生物有效性、微生物污染等环境指标的预测领域。
生物通微信公众号
知名企业招聘