《Scientific Reports》:The hidden value of low-performers: ensemble design strategies for coupled ocean-circulation biogeochemical modelling
编辑推荐:
集合(ensemble)方法在天气预报和气候科学中结合若干不同模式的输出,以克服单一模式的局限性,思路是借助“多数之力”。集合成员的选择旨在反映现有最佳知识的全部范围,这通常促使研究者用更优替代方案替换低表现集合成员。此处研究人员提出一种替代方法,在耦合海洋环
集合(ensemble)方法在天气预报和气候科学中结合若干不同模式的输出,以克服单一模式的局限性,思路是借助“多数之力”。集合成员的选择旨在反映现有最佳知识的全部范围,这通常促使研究者用更优替代方案替换低表现集合成员。此处研究人员提出一种替代方法,在耦合海洋环流-生物地球化学模拟背景下,通过挖掘低表现成员的隐藏价值带来益处。研究人员以波罗的海(Eckernf?rde Bight)海岸测试点证明,当借助机器学习(ML)时,为重现极端动态而筛选的扰动参数集合(perturbed parameter ensemble)模式能够优于常规选择方法——尽管单个模式表现相当弱。文中讨论了该方法对评估全球海洋生物地球化学预估和海洋地球工程方案的启示。
论文发表于《Scientific Reports》。研究背景方面,集合方法在大气科学中已较为成熟,常用于IPCC(政府间气候变化专门委员会)气候预估和数值天气预报,通常通过集合平均、加权集合平均等处理技术来抵消个体误差、提供预测不确定性范围。相比之下,耦合海洋环流-生物地球化学模拟的集合技术尚处于起步阶段,目前多停留在模式间比较项目层面,尚未系统发展为合成单一最优预估的工作流。该领域面临的主要问题是:生物地球化学过程并非基于第一性原理(如牛顿定律之于物理海洋环流),而是大量参数化(如浮游植物最大生长速率、温度与生长关系常数等),这些参数不确定性高、生物系统的多样性和非线性使得约束困难;加之海洋生物地球化学观测在时空上非常稀疏(远不如大气观测网),导致模式存在系统性偏差(systematic bias)、个体误差不独立,集合平均往往不能优于最佳单个成员,甚至无法包络观测值。因此,传统思路侧重挑选高性能成员或单一最优校准模式,但在参数不确定性大、计算资源有限的实际条件下,这种做法会损失信息并低估不确定性范围。为此,研究人员开展本研究,目的是探索如何设计集合(扰动策略)以最大化信息增益并约束不确定性,并利用机器学习从包含低表现、极端参数设置的集合中挖掘隐藏价值,以提升耦合模拟在海岸带氧浓度等方面的预测可靠性。
关键技术方法如下:研究人员使用已有的Eckernf?rde Bight(波罗的海西南部)耦合模拟再分析数据作为样本队列来源,海洋环流模式为MOMBE(基于NOAA GFDL的MOM4p1框架,水平分辨率100 m),生物地球化学模块为EckO2(只考虑氧循环,以控制参数不确定性);构建6成员扰动参数集合(perturbed parameter ensemble),差异在于垂直背景扩散混合系数(低LoMix、中MedMix、高HiMix)以及是否包含本地生物源汇(含本地源汇为常规版,不含本地源汇标注Rem即仅远程生物效应);模拟时段为2000–2015年非冬季季节;观测数据为当地“Tonne 2a”站点和Boknis Eck时间序列站的底层溶解氧(dissolved oxygen)数据;机器学习方法采用随机森林回归(random forest regressor, RFR)以6个集合成员输出为输入、观测值为目标进行有监督学习,使用80%观测训练、20%独立测试,树数为120,后续针对极值预测偏差补充分位数回归森林(quantile regression forest)做后校正;不确定性估计结合树间百分位数(15%和85%)与正负残差方差,空间外推时依据与参考站的时间相关系数及局部集合离散度施加膨胀因子。
研究结果部分:
Member’s Performance & Generic Ensemble Approach:研究人员通过计算各集合成员及集合平均相对于“Tonne 2a”站溶解氧观测的统计指标(均值、标准差、决定系数R2、均方根误差RMSE)发现,单个成员模拟的时间均值偏离观测均值-25%至+10%,LoMix在标准差上最优但均值偏低,LoMixRem在均值和标准差综合上较好,HiMix和HiMixRem变异度低估较多(平滑过度);集合平均的R2=0.5、RMSE=66.15 mmol O2/m3,并未优于最佳单个成员(如MedMixRem的RMSE=65.28,R2=0.52),误差分布10th/90th百分位数也无改善;原因是成员间误差存在系统性偏差、不独立,集合平均“多数之力”失效。
Accessing the Hidden Value of Low-Performers:研究人员将6个成员输出输入随机森林回归 supervised learning,并在极值区用分位数回归校正,在独立测试集上得到R2=0.74、RMSE=45.8 mmol O2/m3,较集合平均提升约R2提高0.24、RMSE降低约30%;不确定性估计(树15%/85%百分位加残差方差分正负)能包络绝大多数观测,优于单纯集合离散度;特征重要性(feature importance, Gini-based)显示相对低表现的HiMixRem和HiMix贡献达约30%和20%,而表现较好的MedMix系列仅各约13%;仅用两个低表现成员(LoMix和HiMixRem)的随机森林结果与全集合相近甚至RMSE略优,仅用两个最佳表现成员则性能下降(R2=0.69);Wilcoxon符号秩检验表明全集合与低表现子集和基础随机森林差异在p=0.05边缘显著,增加树可降p值;说明极端参数设置虽单个表现差,但提供更广特征空间、成员间相关性更低,利于ML解构偏差。
Application in two Spatial Dimensions:研究人员将在单站“Tonne 2a”训练的ML模型推广到Eckernf?rde Bight全域最深模型层,以集合成员输出推断二维底层氧场;以2003年8月缺氧事件为例,ML推断显示低氧水从湾口进入并在月末充满整个湾,底层氧可低于63 mmol O2/m3(hypoxia阈值),与Boknis Eck及“Tonne 2a”观测一致;集合平均虽也显示低氧水进入但偏高等、未能重现观测的缺氧条件(因HiMix类强混合抬氧);ML场空间连贯且动力合理;不确定性估计经空间膨胀因子处理后,深水域、旧底水不确定性较大,浅水较低(受空气-海气交换主导,误差不累积),符合预期。
讨论部分总结:研究人员指出,尽管集合设计偏向极端但合理参数范围,仍未能包络所有观测,且集合平均无优势,印证了生物地球化学海洋模式中系统性偏差、误差不独立的普遍问题;但ML组合(随机森林加分位数校正)明显提升了精度与不确定性量化,RMSE由集合平均66.7降至45.7 mmol O2/m3,不确定性区间更合理;ML仍存较大误差暗示未解析过程(如沉积物-水界面再悬浮、隐蔽海底缺氧hidden seafloor hypoxia、垂直混合数值表征偏差等)。结论为:在集合设计上,建议选取极端但合理参数以产生足够发散、低互相关的成员供ML使用,而非传统剔除低表现成员;即便单个成员表现差,ML也能识别其倾向性偏差并合成更优预估;这对生物地球化学未来预估、what-if情景(含海洋碱度增强等地球工程)意义重大——只选历史表现优的模式可能低估响应谱与不确定性;多样性集合加ML更能捕获系统潜在响应。需注意ML依赖历史观测学习偏差矫正,若系统跃迁到全新状态(机制阈值、外部触发)则外推有风险;本研究未覆盖结构不确定性(可用多模式集合弥补)。