《Ocean Modelling》:Surrogate-Assisted Global Calibration of a Three-Dimensional Hydrodynamic Lake Model Using Machine Learning
编辑推荐:
水动力模型的率定是一个繁琐的过程,通常通过手动和/或系统性地调整模型系数,以使相对于观测值的模型误差指标(如均方根误差 root-mean-square error, RMSE)最小化。手动调整可能导致模型欠率定或引入参数选取的主观性,而在大参数空间中进行系统
水动力模型的率定是一个繁琐的过程,通常通过手动和/或系统性地调整模型系数,以使相对于观测值的模型误差指标(如均方根误差 root-mean-square error, RMSE)最小化。手动调整可能导致模型欠率定或引入参数选取的主观性,而在大参数空间中进行系统性率定在计算上往往不可行。为解决这些问题,研究人员开发了一个基于Python的自动率定框架,该框架结合拟随机Sobol采样(Sobol sampling)以探索参数空间、使用极端梯度提升树(eXtreme Gradient Boosting, XGBoost)作为机器学习代理模型(surrogate)来近似率定误差,并利用遗传算法(Genetic Algorithm, GA)识别候选最优参数集,随后使用完整水动力模型进行验证。该框架应用于三维水生生态系统模型(Aquatic Ecosystem Model, AEM3D)对伊利湖2017—2019年的后报(hindcast)模拟,旨在最小化水温、流速和水位相对于观测值的RMSE。通过对七个模型参数的优化调整,在有限的率定运行次数下,水温、流速和水位的RMSE分别改善了11%、13%和73%。该框架还提供了模拟输出变量对率定参数变化的敏感性信息。这种计算高效的率定方法减少了率定所需的高开销模型模拟次数,实现了三维水动力模型的实用优化,适用于后报、实时及预报工作流程。
论文解读:基于机器学习代理模型辅助的三维湖泊水动力模型(AEM3D)全局率定——以伊利湖为例
该研究由Hamed Ebrahimi、Leon Boegman、Reza Valipour及Rohit Shukla完成,发表于《Ocean Modelling》。三维水动力模型(如AEM3D、Delft3D、FVCOM等)在湖泊与海洋模拟中广泛应用,但其包含多个需率定(calibration)的参数(如拖曳系数、热传输系数、消光系数等)。传统手动率定依赖经验且主观性强;常规自动率定如PEST采用暴力搜索需数十万次模型运行,对计算昂贵的3D模型不可行;而局部优化算法(如DUD)易陷入局部最优。因此,研究人员亟需一种兼具全局搜索能力与低计算成本的率定框架。本研究提出并验证了一种混合机器学习代理模型(surrogate model)与全局优化算法的自动率定方法,以AEM3D模拟的伊利湖2017–2019年水文为案例,检验其在减少全模型运行次数的同时提升多变量(水温、流速、水位)模拟精度的有效性。
主要关键技术方法:
研究人员选取AEM3D三维水动力模型对伊利湖(西、中、东盆地)进行2017–2019年后报模拟,水平网格分辨率2 km×2 km(对比用1 km×1 km),垂直65层,气象强迫来自GDPS/CaSPAr,入流数据来自ECCC与USGS。率定参数共7个:表面平均反照率(mean_albedo)、PAR与NIR光衰减系数(par_extinction, nir_extinction)、表面热传输系数(surf_heat_transf_coeff)、风拖曳系数(wind_cd)、底拖曳系数(drag_btm_cd)及湍流混合系数(mixing_coeff)。采用Sobol拟随机抽样生成64组参数组合并运行全模型得RMSE,以此训练三个独立XGBoost回归器分别预测水温、流速、水位RMSE。将加权综合RMSE(权重2:1:1,侧重水温)作为目标函数,嵌入遗传算法(GA, 种群100, 200代)搜寻代理模型响应面的最优参数集。GA推荐的参数集再用全AEM3D评估,结果回馈更新训练集并重训练XGBoost,迭代至连续三次加权RMSE变化<0.2%视为收敛。XGBoost超参数由GridSearchCV五折交叉验证确定,特征重要性(feature importance)用于参数敏感性分析。观测数据含ECCC温度剖面及ADCP流速、NOAA/ECCC水位站数据。
研究结果:
3. Results — 参数收敛(Parameter convergence): GA在初始64次Sobol运行后,经5次(1 km网格)和7次(2 km网格)迭代即收敛至稳定参数值(除PAR/NIR消光系数略有波动,表明其对目标函数敏感性较低)。最终ML率定反照率为0.18(高于手动率定的0.10),底拖曳系数因网格分辨率不同而异(2 km网格0.0025,1 km网格0.006)。各参数最终迭代值被取为最优值。
3. Results — 误差指标(Error metrics): 相比手动率定,ML率定使2 km网格的水温RMSE从2.32℃降至2.07℃(改善11%),流速RMSE从0.063 m·s?1降至0.055 m·s?1(改善13%),水位RMSE从0.28 m降至0.08 m(改善73%)。各测站水温RMSE均有下降(Sta.452降17%,Sta.880降7%,Sta.970降10%),流速U/V分量RMSE亦全面降低,水位模拟长期漂移显著减小。
3. Results — 水位(Water level): ML率定更好再现了季节波动(~0.5 m)及风暴增水相位与幅值,长期漂移<10 cm(手动率定~50 cm)。较高反照率减少短波吸收从而降低蒸发失水,配合其他参数调整改善了水量平衡。
3. Results — 水温(Water temperature): 东部盆地Sta.452温跃层深度模拟误差在分层期≤1 m(9月初略偏大),秋季翻转手动率定延迟约6天。ML率定整体温度RMSE更低,相关性更高(R~0.91 vs 0.86),尤其温跃层及深水区。个别日期近表层手动率定略优,但金属imnion(温跃层)因深度偏差致大温差属典型现象。
3. Results — 流速(Current velocity): 经24 h滑动平均去近惯性振荡后,ML率定流速RMSE较手动率定降低约0.01 m·s?1,相关系数相当。模型可复现风暴增水、表面seiche及内波引起的流速变化,部分高能事件两方案均略高估。
3. Results — 特征重要性(Feature importance): XGBoost特征重要性显示:水温RMSE最敏感于风拖曳系数Cd(~46%)与表面热传输系数C(~36%);流速RMSE最敏感于湍流混合系数Cs(~70%)与Cd(~15%);水位RMSE最敏感于表面热传输系数C(~58%)与平均反照率r(~34%),符合物理机制(影响蒸发及水量平衡)。
讨论与结论翻译总结:
该混合XGBoost-GA框架以少于10次优化迭代(共约71–79次全模型运行)实现三维伊利湖水动力模型多目标率定,相较基于经验的手工率定显著降低水温、流速及水位RMSE,并消除主观性。特征重要性分析提供参数敏感性诊断,指导后续率定边界调整。与传统全局优化工具(如Dakota)不同,本框架用可扩展树模型替代高斯过程代理,更适合高维非线性参数空间,且轻量封装于Python脚本直接调用模型可执行文件。该方法适用于计算昂贵的耦合水动力–水质模型率定及业务化预报系统的自动更新。
结论如下:本研究证明了XGBoost–遗传算法混合框架对三维水动力模型自动率定的有效性。应用于伊利湖使水温、流速及水位RMSE较手动率定分别降低11%、13%和73%。框架在减少率定误差的同时降低了人工调参负担并限制主观性。特征重要性分析表明水温RMSE对风拖曳系数(~46%)与表面热传输系数(~36%)最敏感,流速RMSE对湍流混合系数(~70%)与风拖曳系数(~15%)最敏感,水位RMSE对表面热传输系数(~58%)与平均反照率(~34%)最敏感,可为后续率定提供参考。该框架为含多输出目标的计算昂贵三维水动力模型提供了高效、可移植的率定途径,适合拓展至水动力–生物地球化学耦合模拟,以提升水质与资源管理预测的可靠性。