
-
生物通官微
陪你抓住生命科技
跳动的脉搏
水文信息驱动的机器学习模型提升城市地表径流水质预测精度
【字体: 大 中 小 】 时间:2025年06月29日 来源:Science of The Total Environment 8.2
编辑推荐:
为解决城市化进程中地表径流污染物动态预测难题,广州研究人员提出融合水文物理模型(ICM)与随机森林(RF)的混合建模框架,通过SHAP可解释性分析揭示降水、坡度和不透水面积比为关键驱动因子。该模型对COD、NH3-N和SS的预测R2达0.78-0.81,为城市面源污染防控提供智能化决策工具。
随着全球气候变化和城市化进程加速,极端降雨事件频发与不透水地面扩张形成"双重夹击",导致城市地表径流携带大量污染物冲击水体生态系统。珠江三角洲作为中国城镇化率超85%的典型区域,其地表水中已检测出数百种人为污染物,其中化学需氧量(COD)、氨氮(NH3-N)和悬浮物(SS)等指标虽浓度不高,却对水生生态和人类健康构成潜在威胁。传统物理驱动模型虽能模拟污染物时空分布,但存在参数复杂、计算耗时等瓶颈;而纯数据驱动的机器学习模型又难以捕捉污染物迁移转化规律。这种"物理机制与数据规律割裂"的困境,使得城市水环境管理部门亟需兼具机理可解释性和预测准确性的新型预测工具。
广州大学的研究团队在《Science of The Total Environment》发表的研究中,创新性地构建了水文信息物理模型(ICM)与随机森林(RF)算法协同的混合建模框架。研究团队在广州市越秀区33.8 km2高度城镇化区域布设在线监测设备,获取2019年COD、NH3-N和SS的高分辨率数据(均值分别为15.28±2.84 mg/L、2.63±1.48 mg/L和12.02±0.55 mg/L)。通过将ICM模拟的径流过程数据作为特征输入RF模型,并采用SHAP(Shapley Additive Explanations)方法解析关键驱动因子,实现了对城市地表径流水质的精准预测。
关键技术包括:1) 基于ICM(InfoWorks Collection Model)构建物理驱动模块,模拟水文水力过程;2) 采用随机森林(RF)、支持向量机(SVM)和长短期记忆网络(LSTM)等机器学习算法建立预测模型;3) 应用SHAP解释性分析量化降水、坡度等特征贡献度;4) 通过决定系数(R2)和均方根误差(RMSE)评估模型性能。
研究结果
Descriptive statistics of water quality
监测数据显示城市径流中COD浓度较地表水体低50%,但NH3-N浓度显著偏高,反映城镇化过程对氮循环的干扰。这种特殊的污染物分布模式为模型构建提供了重要基准。
Performance improvement through hybrid modeling
ICM-RF混合模型表现最优,对COD、NH3-N和SS的预测R2分别达0.78、0.77和0.81,RMSE控制在0.17-0.58。相比单一模型,混合框架将预测误差降低30%以上,证实物理约束能有效提升机器学习泛化能力。
SHAP analysis
特征重要性分析揭示降水强度、地形坡度(>15°区域)和不透水面积比(>60%时)是影响水质变异的前三大因子,其中降水对NH3-N预测的贡献度达42%,为低影响开发设施布局提供量化依据。
结论与意义
该研究开创性地实现了水文物理规律与数据驱动算法的有机融合:ICM模块保障了污染物迁移过程的机理可信度,RF算法提升了局部特征的捕捉能力,而SHAP分析则破解了传统"黑箱模型"的不可解释难题。研究提出的框架为智慧城市水环境管理提供三方面突破:1) 实现72小时内水质波动预警;2) 识别出不透水面积比60%为水质恶化阈值;3) 证实混合模型训练数据量可减少40%仍保持精度。这些发现不仅为粤港澳大湾区水污染防治提供技术支撑,其"物理引导机器学习"(Physics-guided ML)的研究范式更为复杂环境系统建模开辟新路径。
值得注意的是,Pei Hua团队特别指出该模型在应对突发污染事件时仍需结合实时传感器网络数据。未来研究将探索耦合城市排水管网模型与深度强化学习,以进一步提升动态预测能力。这项由国家自然科学基金(42377059)和广东省基础与应用基础研究基金(2022A1515010499)资助的成果,标志着我国在城市水环境智能治理领域取得重要进展。
生物通微信公众号
知名企业招聘