基于集成机器学习的沿海城市化流域水质时空变异预测与归因分析

【字体: 时间:2025年08月10日 来源:Ecological Indicators 7.4

编辑推荐:

  本研究针对沿海城市化区域多流域水质时空变异预测难题,创新提出跨流域集成机器学习模型(EAM),整合12个流域432个站点105,368组水质数据,通过SHAP可解释性分析揭示了树冠覆盖率(55%)、距海距离(10km)等关键阈值,构建了基于水质归因强度(WQAS)的监测优化策略,为流域精准治理提供新范式。

  

随着全球城市化进程加速,沿海地区流域水质面临严峻挑战。在高度城市化的深圳-香港大湾区,12个流域呈现显著的空间异质性:既有国际化大都市核心区,也有城乡过渡带和自然保护区。传统水质模型往往局限于单一流域,难以捕捉多流域间复杂的非线性关系,更缺乏指导大规模长期监测的科学依据。这种困境使得管理者在应对突发污染事件时常常陷入被动,亟需建立兼顾预测精度与解释能力的创新方法。

北京大学深圳研究生院环境与能源学院生态环境与资源效率研究实验室的科研团队在《Ecological Indicators》发表重要成果。研究人员收集了2021-2023年间深圳香港两地432个监测站点105,368组周尺度水质数据,创新性地提出了跨流域集成机器学习模型(EAM)。该研究通过模型堆叠技术整合随机森林回归(RFR)、极限梯度提升(XGBoost)等五种基模型优势,结合SHapley加性解释(SHAP)方法,不仅实现了溶解氧(DO)、氨氮(NH3-N)和总磷(TP)的高精度预测(R2分别达0.62、0.74和0.65),更揭示了关键环境因子的非线性阈值效应,为沿海城市流域智慧化管理提供了全新工具。

研究采用三大关键技术:1)跨流域集成建模框架,通过"留一法"确定最优模型权重;2)SHAP可解释性分析,量化地理因素(如树冠覆盖率Ratio_Trees)和压力因素(如日降雨量Rain_1D)的贡献值;3)水质归因强度(WQAS)指标,基于105,368组样本的SHAP绝对值构建监测优化策略。数据来源于粤港澳大湾区12个典型流域的432个监测点,涵盖城市、农村和过渡带等多种生境类型。

【模型性能评估】EAM显著优于单流域模型(SWM)和分组模型(GWM),测试集R2提升幅度达29%-49%。基模型中RFR表现最佳,而线性回归(LR)效果最差,证实水质影响存在强非线性关系。通过500次Bootstrap采样验证,模型在95%置信区间保持稳定。

【关键因子识别】发现树冠覆盖率(Ratio_Trees)对DO存在55%的生态阈值:高于此阈值时促进水质改善,低于时则加剧恶化。距海距离(Dis_sea)10km为另一关键转折点,近海区域受潮汐作用更易出现缺氧。温度在17-25℃区间对DO的影响呈现倒U型曲线,而日降雨超过10mm会显著降低水体溶解氧。

【时空预测】空间上,深圳湾北部流域(SZBN)和香港南部流域(HKS)等高度城市化区域NH3-N超标风险最高,道路密度超过4000节点时TP污染显著加剧。时间上,7-8月高温期DO最低,而雨季集中降雨使NH3-N浓度激增,呈现"暴雨冲刷效应"。

【监测优化】创新性提出WQAS指标,发现仅需监测20%-40%的关键样本(主要分布在极端城市化区域和暴雨季节)即可捕获80%以上的水质变异信息。这些"高影响力"样本的SHAP贡献值超全局均值1倍,集中在7-8月的BAW、MZR等流域。

该研究突破了传统水质模型在异质流域应用的局限性,首次实现了多流域协同预测与高分辨率归因解析。提出的55%树冠覆盖率阈值为城市绿地规划提供量化依据,而10km海岸带边界为河口治理划定重点区域。更具革新意义的是,WQAS指导的监测策略可使采样量减少60%-80%,每年节省数百万监测成本。这些成果为粤港澳大湾区水生态管理提供了精准决策支持,其"预测-解析-优化"框架也可推广至全球沿海城市流域治理。未来研究可进一步验证模型在不同气候区流域的普适性,并探索深度学习算法在异质数据整合中的潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号