基于过程模型配置的校准前评估新框架与数据价值量化方法

【字体: 时间:2025年09月14日 来源:Water Resources Research 5

编辑推荐:

  本刊推荐:本文提出一种创新框架,用于在模型校准前评估过程基模型配置(Process-Based Model)的充分性。通过引入马氏距离偏差(Mahalanobis Distance Deviation)指标,系统量化先验模型输出与观测数据的统计一致性,并隐含惩罚模型复杂度。同时提出辨识值(Discernment Value)指标,评估数据在筛选低适配模型中的价值。该框架通过一维地下水模型(MODFLOW 6)验证,成功识别与真实模型最相似的配置,为水文模型选择提供了计算高效的先验判别工具。

  

引言

过程基水文模型通常包含多个可替代的水文过程算法模块,这些模块在模拟水通量和状态时存在显著差异。每个水文过程可由不同的算法模块表示,这些模块在粒度、参数数量和物理性方面差异很大。将不同的过程模块组合可形成独特配置的模型,但由于模块选择存在不确定性,通常会产生多个竞争性的候选模型配置。

传统的模型选择方法通常计算成本高昂,且依赖校准后的模型输出。作为替代方案,校准前的模型评估方法通过比较先验参数集合获得的模型输出分布与观测数据分布来进行模型筛选。这类方法通常基于先验蒙特卡洛分析,使用相对较少的参数实现(100-500个)来获得先验模型输出分布。

先验模型充分性度量

研究提出了一个新的度量指标——马氏距离偏差(Mahalanobis Distance Deviation),用于量化先验模型充分性。该指标通过比较两组马氏距离值的偏差来评估模型充分性:一组是数据与先验模型输出分布之间的平方马氏距离,另一组是数据与其自身分布之间的平方马氏距离。

该指标的设计隐含地平衡了先验模型与数据的一致性(即先验-数据冲突)和模型设计复杂性(以模型输出的方差表示)。指标计算基于不同层级(level 1和level 2)的马氏距离,分别对应单个数据集和数据集对的分析。

指标行为分析表明,它对不覆盖数据的"低"复杂性模型施加强烈惩罚,而对范围远大于数据的"高"复杂性模型施加适度惩罚。这种平衡行为符合先验模型充分性的概念,即优先选择覆盖数据但不过度复杂的模型。

数据辨识价值度量

研究还提出了一个新的数据价值度量指标——辨识值(Discernment Value),用于量化数据在筛选低充分性模型方面的价值。该指标基于先验模型输出方差的变化计算,反映了由于低充分性模型获得较低权重而导致的加权平均先验模型输出方差的变化。

辨识值的计算采用过程敏感性分析方法,该方法将模型平均与基于方差的全局敏感性分析相结合。通过该方法,可以量化数据在减少总模型输出不确定性以及归因于每个过程模块变化的输出不确定性方面的价值。

示例应用:一维地下水流动模型

研究使用一维地下水流动模型来演示所提出的框架。该模型模拟稳态水平地下水流动,包含三个系统过程的不确定性:补给、地质结构和控制河流水位的融雪。每个过程有两个模块选项,共产生八个候选模型配置。

通过MODFLOW 6进行模型模拟,使用500个参数实现,每个模型配置产生250,000次模拟,总共进行6,000,000次模型模拟。创建了一个"真实"模型来生成合成数据网络,包括四个位置的地下水头数据、补给数据和河流水位数据。

结果与讨论

模型输出与合成数据的比较显示,在不同位置,候选模型的先验输出分布表现出不同的重叠模式。靠近河流边界的位置,模型输出分布收敛为两种独特分布,分别对应使用不同融雪模块的模型。

马氏距离偏差结果清楚地表明,使用特定融雪模块(M1)的模型比使用替代模块(M2)的模型更具充分性。地质过程模块的结果显示,双区结构模块(G2)比均质模块(G1)更充分,这与真实模型的水力传导率结构一致。补给模块的结果较为模糊,两个模块都覆盖了数据,表明可用数据可能不足以在校准前区分这两个模块。

过程模块权重的收敛分析表明,相对较小的参数集合(约100个实现)即可获得稳定的结果,这支持了该框架的计算可行性。

辨识值结果显示,合成数据网络在减少河流边界附近的地下水头输出方差方面最为有效,这与融雪过程对河流边界附近水头动力学的强烈影响一致。数据对减少归因于补给过程的方差贡献较小,而对减少归因于地质过程的方差贡献在模型域中表现出特定的空间模式。

实际考虑与应用

与其他先验-数据冲突度量方法(如数据覆盖率和马氏距离异常值比例)的比较表明,马氏距离偏差指标提供了额外的细微差别和信息,能够更好地区分不同模型配置的相对充分性。

该框架在实际应用中的具体结果取决于所评估模型的背景,因此应在所提供的背景下解释指标值。虽然增加候选模型数量可能会提高结果的稳健性,但只要在评估模型的背景下解释结果,最大化候选模型数量并非必需。

该框架可能无法区分那些通过操纵先验参数分布而产生几乎相同先验输出分布的模型。在这种情况下,可能需要使用传统的后验模型选择方法或多模型分析。

更广泛的讨论

与迭代式先验模型评估方法相比,该框架提供了统一且规则的方法,可以同时测试和比较多个模型改进方案,可能减少确定良好设计模型所需的迭代次数。

与依赖校准的自动模型结构识别方法相比,该框架可能计算上更可行,并且可以容纳完全自包含的模型之间的比较。

将水文签名纳入该框架可能提高区分过程模块表示的能力,因为水文签名通常用于解释水文过程。

结论

该研究提出了一个新的框架,用于量化过程基水文模型的先验充分性,并在校准前协助区分候选模型。该框架依赖于新的马氏距离偏差指标来量化候选模型的先验充分性,并平衡模型输出与可用数据的一致性以及模型复杂性。通过一维地下水流动模型的应用,该框架成功识别了与用于创建合成数据的真实模型最相似的候选模型配置。辨识值计算表明,合成数据在减少河流边界附近先验地下水头输出方差方面最为有效。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号