利用机器学习预测私人井水中砷和锰的污染:对地质数据、井建设数据及许可数据的综合分析
《Science of The Total Environment》:Predicting arsenic and manganese contamination in private well water with Machine Learning: An integrated analysis of geologic, well construction, and permitting data
【字体:
大
中
小
】
时间:2025年11月17日
来源:Science of The Total Environment 8
编辑推荐:
本研究针对北卡罗来纳州联合县私人井水中砷(18%超标)和锰(12%超标)污染问题,整合地质、地理、井构造和水化学数据,开发随机森林(RF)和支持向量机(SVM)模型。最优线性核SVM模型显示,经纬度、水流速率、土地用途和岩石类型为关键预测因子,为精准检测和干预提供方法支持。
本研究聚焦于北卡罗来纳州(NC)私人井水中砷(As)和锰(Mn)污染的预测,旨在为公众健康干预提供科学依据。私人井水作为许多居民的主要饮用水来源,其水质安全问题在NC尤为突出。研究团队通过分析超过700个私人井水测试数据,结合地质、地理、井构造及水体特征等13项变量,构建了随机森林(RF)和支持向量机(SVM)模型,以预测井水是否超过各自的污染物限值。结果显示,As和Mn污染在测试井中分别占18%和12%,表明该地区存在较高的污染风险。多数模型在不同数据组合下表现出较高的预测能力(AUC > 0.7),其中As的最优模型使用线性核SVM,综合了所有13个变量,其AUC为0.80;而Mn的最优模型则利用了地质和地理变量,AUC为0.74。这些发现对于识别高风险私人井、优化现有井的干预措施以及制定新井建设的安全标准具有重要意义。
### 1. 研究背景与意义
砷是一种有毒的类金属元素,长期暴露可能导致严重的健康问题,如癌症、心血管疾病和糖尿病。据估计,全球约有2亿人通过饮用水摄入砷含量超过世界卫生组织(WHO)和美国环境保护署(EPA)规定的10 ppb的砷含量。在美国,依赖地下水的居民中,超过1000万人可能暴露于高水平的砷。同样,锰虽然是人体必需的微量元素,但过量摄入会带来显著的健康风险,尤其是对婴儿和儿童的神经发育有负面影响。据预测,美国有超过1000万人可能暴露于超过300 ppb的锰含量。因此,识别高污染风险区域和井点,对于采取有效的干预措施至关重要。
北卡罗来纳州因其大量依赖私人井水,且部分地区的金属污染问题较为严重,成为研究的焦点。NC的私人井水用户估计在240万至330万之间,而NCWELL数据库显示,2.3%的测试样本超过了砷的污染物限值,4.9%的样本超过了锰的健康建议水平。然而,由于私人井水的监管缺失,居民需自行负责水质监测,这带来了诸多障碍,包括经济负担、缺乏意识以及地方卫生部门资源不足。因此,如何利用现有数据,优化污染预测模型,以指导测试优先级和新井建设,成为当前研究的重要课题。
### 2. 研究方法与数据处理
本研究的数据来源于Union County Health Department的井水测试记录,包括新井和现有井的测试数据,时间跨度为2008年6月17日至2017年11月14日。测试数据包括砷和锰的浓度(以ppb为单位),以及井的物理地址和采样日期。通过将地址数据与地理信息系统(GIS)结合,研究团队获取了每个井的地理坐标,并据此提取了相关地理参数。此外,井的构造特征如套管深度、流量、pH值等,也被纳入分析范围。
研究团队采用监督学习(Supervised Learning)方法,通过不同的数据组合构建了四个“使用场景”(use cases)以评估模型性能。使用场景1包括所有13个变量;使用场景2排除了经纬度;使用场景3仅考虑井的构造特征;使用场景4仅考虑地质和地理因素。通过5折交叉验证,确保模型在训练和测试数据集之间具有良好的泛化能力。同时,为了解决数据不平衡问题,研究团队采用了SMOTE技术,对少数类(即污染样本)进行过采样,以提升模型对污染的识别能力。
### 3. 研究结果与分析
通过构建和测试不同的监督学习模型,研究团队发现As和Mn污染在不同变量组合下具有显著的预测性。对于As污染,使用场景1中的线性核SVM模型表现最佳,其AUC为0.80,表明该模型能够较为准确地识别高污染风险井。该模型中,纬度、流量、pH值和土地利用类型是最重要的预测变量。而Mn污染的预测则主要依赖于套管深度、纬度和经度。这些结果揭示了井水污染与地质、地理特征之间的复杂关系,同时也表明井的构造参数在污染预测中的关键作用。
研究团队进一步通过变量重要性分析和决策边界图,揭示了哪些变量对模型性能贡献最大。例如,对于As污染,浅层套管和高pH值的水体更可能成为污染源;而对于Mn污染,浅层套管和特定的地质构造如泥岩更可能带来高浓度污染。这些发现不仅有助于理解污染机制,还为未来井水测试和新井建设提供了指导依据。
### 4. 研究讨论与展望
本研究展示了监督学习在私人井水污染预测中的应用潜力,通过整合井构造、地质和地理数据,可以更有效地识别污染高风险区域。然而,研究也指出了若干局限性,例如数据不平衡和部分变量缺失的问题。此外,由于数据时间跨度的限制,某些变量(如土地利用)的更新时间与井水采样时间不匹配,这可能影响模型的准确性。未来的研究可以进一步整合更全面的数据,以提升模型的预测性能。
同时,研究强调了在井水污染防控中,考虑社会经济因素的重要性。例如,研究表明,私人井水测试存在显著的种族差异,黑人、原住民和有色人种居住区域的测试率较低。这表明,除了技术手段外,还需要加强公众教育和政策支持,以确保所有居民都能获得安全的饮用水。
本研究的成果对于北卡罗来纳州的井水污染管理具有实际意义。通过识别高风险井的特征,可以优先安排测试和干预措施,特别是在资源有限的地区。此外,研究还提出了通过优化井的构造参数,如增加套管深度,来降低污染风险的可能性。这些方法不仅适用于NC,也可能为其他地区提供参考。
综上所述,本研究通过监督学习模型,揭示了私人井水中砷和锰污染的关键预测因素,为公众健康干预提供了科学依据。未来的研究可以进一步验证这些模型在其他地区的适用性,并探索如何结合健康数据,以更全面地评估污染带来的健康风险。通过持续的数据收集和技术进步,我们可以更好地应对私人井水污染问题,保障公众健康。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号