基于蒙特卡罗特征选择与机器学习的地下水硝酸盐预测及健康风险评估新方法
《Journal of Hazardous Materials Advances》:Intelligent Feature Elimination via Monte Carlo Approach for Machine Learning-Based Groundwater Nitrate Prediction and Health Risk Assessment
【字体:
大
中
小
】
时间:2025年10月30日
来源:Journal of Hazardous Materials Advances 7.7
编辑推荐:
本研究针对地下水硝酸盐污染预测中传统特征选择方法的局限性,提出了蒙特卡罗特征选择(MCFS)与ExtraTrees回归算法相结合的新框架。通过对伊朗Sarayan平原147个地下水样本的分析,研究发现该方法在保持R2≈0.98高精度的同时,将输入特征减少50%,并识别出HCO3-为最关键预测因子。健康风险评估显示婴幼儿面临较高健康风险(HQ>1),为地下水安全管理提供了重要科学依据。
随着工业发展和农业活动的加剧,地下水硝酸盐污染已成为全球性的环境健康问题。在发展中国家,地下水是许多地区主要的饮用水源,而硝酸盐通过化肥施用、动物粪便和城市污水等途径渗入地下水系统,对人类健康构成严重威胁。高浓度硝酸盐饮用水可导致食管癌、淋巴癌和胃癌等多种疾病,尤其对婴幼儿的危害更为显著。
传统的硝酸盐预测模型存在诸多局限性:人工神经网络(ANN)在测试数据超出训练范围时表现不佳;支持向量机(SVM)需要评估所有核函数才能达到最佳性能;而常规的特征选择方法如主成分分析(PCA)会降低模型可解释性,SHAP值计算则面临大数据集时的计算挑战。这些限制促使研究人员寻求更鲁棒、高效的方法来预测地下水硝酸盐浓度。
发表在《Journal of Hazardous Materials Advances》上的这项研究,提出了一种创新的蒙特卡罗特征选择(MCFS)方法,结合五种机器学习算法,对地下水硝酸盐浓度进行精确预测和健康风险评估。研究团队从伊朗Sarayan平原的12个地点收集了147个地下水样本,分析了pH、Ca2+、HCO3-、SO42-、Cl-、NO3-、Mg2+、Na+和K+等9种理化参数。
关键技术方法包括:蒙特卡罗特征选择(MCFS)通过500次随机子集采样和性能评估筛选关键特征;五种机器学习算法(Extra Trees、CatBoost、Random Forest、Decision Tree、AdaBoost)的比较评估;网格搜索和5折交叉验证用于超参数优化;SHAP值分析用于特征重要性解释;健康风险评估(HQ计算)针对四个年龄组(婴儿、儿童、青少年、成人)进行。
研究比较了五种机器学习算法在硝酸盐预测中的表现。Extra Trees模型表现最佳,训练集和测试集的R2分别达到1.00和0.98,均方误差(MSE)为1.6063,平均绝对误差(MAE)为0.8939。CatBoost和Decision Tree模型也表现出较好的性能,而Random Forest和AdaBoost模型相对较差。经验分布函数分析显示,Extra Trees模型有97%的数据点绝对误差小于1,证明了其预测的准确性。
通过SHAP值分析,研究发现K+、SO42-、Na+和Cl-是对硝酸盐浓度预测最重要的特征。部分依赖图(PDP)和个体条件期望(ICE)分析进一步揭示了这些特征与硝酸盐浓度之间的复杂非线性关系。
应用MCFS方法后,模型仅保留了HCO3-(出现频率66.4%)、Cl-(65.6%)、K+(64.7%)和Na+(62.5%)四个关键特征,将输入维度减少了50%。令人惊讶的是,特征减少后的模型性能反而有所提升,R2从0.9770提高到0.9803,MSE降低了8%。
对147个样本的健康风险评估显示,所有样本的硝酸盐浓度均低于50mg/L的限值。然而,不同年龄组的风险存在显著差异:成人组和青少年组的所有样本HQ值均小于1,属于安全范围;儿童组(2-6岁)有14%的样本(21个)HQ值在1-5之间,属于低风险;婴儿组风险最高,27%的样本(41个)HQ值超过1,其中部分样本达到中等风险水平。
本研究开发的MCFS框架在特征选择和模型优化方面表现出显著优势。与传统方法相比,MCFS能够有效处理特征间的复杂相互作用,减少多重共线性的影响,同时提高计算效率。该方法在保持高预测精度的同时,大幅降低了数据采集和模型计算成本,特别适合资源有限的环境监测场景。
研究确认了Extra Trees算法在地下水硝酸盐预测中的优越性能,其集成学习特性能够有效捕捉特征间的非线性关系。同时,研究揭示了碳酸氢根(HCO3-)在硝酸盐迁移转化过程中的关键作用,这一发现为理解硝酸盐的地球化学行为提供了新视角。
健康风险评估结果强调了婴幼儿群体对硝酸盐污染的特殊敏感性,提示需要针对这一脆弱群体制定更严格的饮用水安全标准。研究建立的预测模型可以为区域水资源管理提供科学依据,帮助相关部门识别高风险区域并采取针对性干预措施。
该研究的局限性在于主要评估了树基算法,未来可纳入神经网络等其他算法进行更全面的比较。此外,模型的普适性需要在不同水文地质条件的区域进行进一步验证。尽管如此,本研究提出的MCFS方法为地下水质量预测提供了新的技术路径,对保障饮用水安全和促进公共健康具有重要意义。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号