基于机器学习代理模型辅助的三维湖泊水动力模型（AEM3D）全局率定——以伊利湖为例

《Ocean Modelling》：Surrogate-Assisted Global Calibration of a Three-Dimensional Hydrodynamic Lake Model Using Machine Learning

【字体：大中小】 时间：2026年06月14日 来源：Ocean Modelling 2.9

编辑推荐：

　　水动力模型的率定是一个繁琐的过程，通常通过手动和/或系统性地调整模型系数，以使相对于观测值的模型误差指标（如均方根误差 root-mean-square error, RMSE）最小化。手动调整可能导致模型欠率定或引入参数选取的主观性，而在大参数空间中进行系统

水动力模型的率定是一个繁琐的过程，通常通过手动和/或系统性地调整模型系数，以使相对于观测值的模型误差指标（如均方根误差 root-mean-square error, RMSE）最小化。手动调整可能导致模型欠率定或引入参数选取的主观性，而在大参数空间中进行系统性率定在计算上往往不可行。为解决这些问题，研究人员开发了一个基于Python的自动率定框架，该框架结合拟随机Sobol采样（Sobol sampling）以探索参数空间、使用极端梯度提升树（eXtreme Gradient Boosting, XGBoost）作为机器学习代理模型（surrogate）来近似率定误差，并利用遗传算法（Genetic Algorithm, GA）识别候选最优参数集，随后使用完整水动力模型进行验证。该框架应用于三维水生生态系统模型（Aquatic Ecosystem Model, AEM3D）对伊利湖2017—2019年的后报（hindcast）模拟，旨在最小化水温、流速和水位相对于观测值的RMSE。通过对七个模型参数的优化调整，在有限的率定运行次数下，水温、流速和水位的RMSE分别改善了11%、13%和73%。该框架还提供了模拟输出变量对率定参数变化的敏感性信息。这种计算高效的率定方法减少了率定所需的高开销模型模拟次数，实现了三维水动力模型的实用优化，适用于后报、实时及预报工作流程。

论文解读：基于机器学习代理模型辅助的三维湖泊水动力模型(AEM3D)全局率定——以伊利湖为例

该研究由Hamed Ebrahimi、Leon Boegman、Reza Valipour及Rohit Shukla完成，发表于《Ocean Modelling》。三维水动力模型（如AEM3D、Delft3D、FVCOM等）在湖泊与海洋模拟中广泛应用，但其包含多个需率定(calibration)的参数（如拖曳系数、热传输系数、消光系数等）。传统手动率定依赖经验且主观性强；常规自动率定如PEST采用暴力搜索需数十万次模型运行，对计算昂贵的3D模型不可行；而局部优化算法（如DUD）易陷入局部最优。因此，研究人员亟需一种兼具全局搜索能力与低计算成本的率定框架。本研究提出并验证了一种混合机器学习代理模型(surrogate model)与全局优化算法的自动率定方法，以AEM3D模拟的伊利湖2017–2019年水文为案例，检验其在减少全模型运行次数的同时提升多变量（水温、流速、水位）模拟精度的有效性。

主要关键技术方法：

研究人员选取AEM3D三维水动力模型对伊利湖（西、中、东盆地）进行2017–2019年后报模拟，水平网格分辨率2 km×2 km（对比用1 km×1 km），垂直65层，气象强迫来自GDPS/CaSPAr，入流数据来自ECCC与USGS。率定参数共7个：表面平均反照率(mean_albedo)、PAR与NIR光衰减系数(par_extinction, nir_extinction)、表面热传输系数(surf_heat_transf_coeff)、风拖曳系数(wind_cd)、底拖曳系数(drag_btm_cd)及湍流混合系数(mixing_coeff)。采用Sobol拟随机抽样生成64组参数组合并运行全模型得RMSE，以此训练三个独立XGBoost回归器分别预测水温、流速、水位RMSE。将加权综合RMSE（权重2:1:1，侧重水温）作为目标函数，嵌入遗传算法(GA, 种群100, 200代)搜寻代理模型响应面的最优参数集。GA推荐的参数集再用全AEM3D评估，结果回馈更新训练集并重训练XGBoost，迭代至连续三次加权RMSE变化<0.2%视为收敛。XGBoost超参数由GridSearchCV五折交叉验证确定，特征重要性(feature importance)用于参数敏感性分析。观测数据含ECCC温度剖面及ADCP流速、NOAA/ECCC水位站数据。

研究结果：

3. Results — 参数收敛(Parameter convergence)： GA在初始64次Sobol运行后，经5次（1 km网格）和7次（2 km网格）迭代即收敛至稳定参数值（除PAR/NIR消光系数略有波动，表明其对目标函数敏感性较低）。最终ML率定反照率为0.18（高于手动率定的0.10），底拖曳系数因网格分辨率不同而异（2 km网格0.0025，1 km网格0.006）。各参数最终迭代值被取为最优值。

3. Results — 误差指标(Error metrics)： 相比手动率定，ML率定使2 km网格的水温RMSE从2.32℃降至2.07℃（改善11%），流速RMSE从0.063 m·s^?1降至0.055 m·s^?1（改善13%），水位RMSE从0.28 m降至0.08 m（改善73%）。各测站水温RMSE均有下降（Sta.452降17%，Sta.880降7%，Sta.970降10%），流速U/V分量RMSE亦全面降低，水位模拟长期漂移显著减小。

3. Results — 水位(Water level)： ML率定更好再现了季节波动(~0.5 m)及风暴增水相位与幅值，长期漂移<10 cm（手动率定~50 cm）。较高反照率减少短波吸收从而降低蒸发失水，配合其他参数调整改善了水量平衡。

3. Results — 水温(Water temperature)： 东部盆地Sta.452温跃层深度模拟误差在分层期≤1 m（9月初略偏大），秋季翻转手动率定延迟约6天。ML率定整体温度RMSE更低，相关性更高(R~0.91 vs 0.86)，尤其温跃层及深水区。个别日期近表层手动率定略优，但金属imnion（温跃层）因深度偏差致大温差属典型现象。

3. Results — 流速(Current velocity)： 经24 h滑动平均去近惯性振荡后，ML率定流速RMSE较手动率定降低约0.01 m·s^?1，相关系数相当。模型可复现风暴增水、表面seiche及内波引起的流速变化，部分高能事件两方案均略高估。

3. Results — 特征重要性(Feature importance)： XGBoost特征重要性显示：水温RMSE最敏感于风拖曳系数Cd(~46%)与表面热传输系数C(~36%)；流速RMSE最敏感于湍流混合系数Cs(~70%)与Cd(~15%)；水位RMSE最敏感于表面热传输系数C(~58%)与平均反照率r(~34%)，符合物理机制（影响蒸发及水量平衡）。

讨论与结论翻译总结：

该混合XGBoost-GA框架以少于10次优化迭代（共约71–79次全模型运行）实现三维伊利湖水动力模型多目标率定，相较基于经验的手工率定显著降低水温、流速及水位RMSE，并消除主观性。特征重要性分析提供参数敏感性诊断，指导后续率定边界调整。与传统全局优化工具（如Dakota）不同，本框架用可扩展树模型替代高斯过程代理，更适合高维非线性参数空间，且轻量封装于Python脚本直接调用模型可执行文件。该方法适用于计算昂贵的耦合水动力–水质模型率定及业务化预报系统的自动更新。

结论如下：本研究证明了XGBoost–遗传算法混合框架对三维水动力模型自动率定的有效性。应用于伊利湖使水温、流速及水位RMSE较手动率定分别降低11%、13%和73%。框架在减少率定误差的同时降低了人工调参负担并限制主观性。特征重要性分析表明水温RMSE对风拖曳系数(~46%)与表面热传输系数(~36%)最敏感，流速RMSE对湍流混合系数(~70%)与风拖曳系数(~15%)最敏感，水位RMSE对表面热传输系数(~58%)与平均反照率(~34%)最敏感，可为后续率定提供参考。该框架为含多输出目标的计算昂贵三维水动力模型提供了高效、可移植的率定途径，适合拓展至水动力–生物地球化学耦合模拟，以提升水质与资源管理预测的可靠性。

热点排行