基于连词的协同模拟方法在生物地球科学中用于模拟时间或空间数据

《Journal of Geophysical Research: Biogeosciences》:Copula-Based Cosimulation for Simulating Temporal or Spatial Data in Biogeosciences

【字体: 时间:2025年10月01日 来源:Journal of Geophysical Research: Biogeosciences 3.5

编辑推荐:

  准确建模变量间的依赖关系对理解生物地球科学过程至关重要。本文提出基于copula的协同模拟方法(CopCoSim),通过捕捉复杂依赖关系来建模时空联合分布,并对比传统序贯高斯协同模拟(SGCoSim)。案例研究显示,CopCoSim在土壤CO?排放与温度的时空模拟中,更精准地还原了单变量分布、时空自相关和变量间依赖关系,且不确定性更小,尤其在非高斯和非线性数据中表现更优。该方法为生物地球科学中的碳循环等复杂系统研究提供了新工具。

  在生物地球科学领域,对变量之间依赖关系的准确建模是理解地球系统中生物物理过程的关键。传统的统计方法在处理非正态分布、非线性关系以及多模态数据时存在局限,而基于copula的联合模拟方法(CopCoSim)则为这些问题提供了一个更具灵活性和准确性的解决方案。本文通过两个案例研究,探讨了CopCoSim在模拟土壤二氧化碳(CO?)通量及其与温度之间的时间和空间关系中的应用效果,并与传统的时间序列联合模拟方法(Sequential Gaussian CoSimulation, SGCoSim)进行了比较。

在研究中,CopCoSim的核心优势在于其不依赖线性相关结构和正态分布假设,能够更精确地捕捉变量之间的复杂依赖关系,包括尾部依赖、非对称性以及非线性交互作用。这种能力在生物地球科学中尤为重要,因为许多环境变量如土壤通量、温度、土壤湿度、微生物活动等,往往表现出非正态的分布特征,并且其相互作用关系通常是非线性的。因此,CopCoSim在模拟这些变量时,能够更好地反映其真实的统计特性,如单变量概率分布、时间或空间自相关性以及变量间的依赖结构。

在第一个案例研究中,研究者使用了美国特拉华州圣琼斯保护区的温带森林中采集的土壤CO?通量和温度的时间序列数据,共365个数据点。这些数据来自自动气室系统,每小时记录一次。为了建立CopCoSim模型,研究者选择了15%的代表性训练样本(即48个数据点),并通过自相关条件拉丁超立方采样(acLHS)方法确保这些样本在统计特性上与原始数据保持一致。通过对比SGCoSim和CopCoSim在模拟土壤CO?通量时的表现,研究发现CopCoSim在多个方面表现更优:其模拟结果与测试数据之间的绝对误差总和为436,710 μmol m?2 s?1,而SGCoSim的误差总和为785,231 μmol m?2 s?1,显示出CopCoSim在误差减少方面的显著优势。此外,CopCoSim在单变量概率分布函数的再现上也表现出更高的精度,其Kolmogorov-Smirnov检验的P值为1,表明其模拟结果与实际观测数据在分布上具有高度一致性。而在时间自相关性方面,CopCoSim的模拟结果与测试数据的变异程度更为接近,其误差仅为SGCoSim的约1/7。

在第二个案例研究中,研究者关注的是美国本土(CONUS)范围内的土壤CO?通量和温度的空间分布。输入数据包括100 km分辨率的土壤CO?通量和温度数据,共计903个数据点。同样,通过acLHS方法选取了150个代表性样本,并在模拟过程中将温度作为已知输入变量进行条件模拟。结果表明,CopCoSim在空间分布模拟中也表现出更高的精度和更低的不确定性。具体而言,CopCoSim的模拟结果与测试数据之间的绝对误差总和为152,262.2 g C m?2 year?1,而SGCoSim的误差总和为206,208.8 g C m?2 year?1,显示出CopCoSim在空间模拟中的优势。此外,CopCoSim在空间依赖性建模方面也更为准确,其模拟结果与测试数据的变异程度更加接近,同时在非线性依赖关系(如散点图中的关系)方面也表现出更强的捕捉能力。

CopCoSim的实施流程主要包括三个步骤:选择代表性训练数据集、应用随机模拟方法、评估模型性能。首先,通过acLHS方法选择训练样本,以确保这些样本能够代表原始数据的统计特征。其次,使用SGCoSim和CopCoSim两种方法对数据进行模拟。SGCoSim需要将数据转换为正态分布,以满足其线性相关结构的假设,但这种转换过程可能会引入误差。相比之下,CopCoSim直接在数据的非正态分布上建模,利用copula函数捕捉变量间的复杂依赖关系,避免了数据转换带来的偏差。最后,通过对比模拟结果与测试数据,评估两种方法的性能。CopCoSim在多个统计指标上均优于SGCoSim,包括单变量分布、时间或空间自相关性以及变量间的依赖关系。

研究还指出,CopCoSim在处理非线性和非正态数据时,具有更高的灵活性和适应性。其核心在于使用copula函数,这种函数能够独立于单变量分布来建模变量之间的联合分布,从而更真实地反映自然系统中的交互关系。例如,在模拟土壤CO?通量与温度的关系时,CopCoSim能够更好地捕捉非线性依赖结构,包括在极端事件(如干旱、飓风)中表现出的非对称响应。而SGCoSim由于依赖于正态分布假设,无法准确再现这些复杂的依赖关系,导致其在模拟过程中出现较大的偏差。

此外,CopCoSim在不确定性量化方面也表现出更强的能力。通过多次模拟(如10次)生成的模拟结果,CopCoSim能够提供更一致和可信的不确定性估计。相比之下,SGCoSim的模拟结果在不确定性方面存在更大的波动,其总不确定性为580,503.6 g C m?2 year?1,而CopCoSim的不确定性仅为382,768.5 g C m?2 year?1。这种更精确的不确定性估计对于理解自然过程的复杂性和风险评估具有重要意义。

研究还探讨了CopCoSim在不同应用场景中的潜力。例如,在气候建模中,CopCoSim可以用于捕捉温度与降水之间的依赖关系;在水文学中,可用于提高径流预测的准确性;在土壤科学中,可用于基于温度和降水数据进行土壤水分模拟;在地球化学中,可用于预测如金、银、铜等元素的浓度分布;在生态系统科学中,可用于研究生物多样性与生态系统之间的关系。因此,CopCoSim不仅适用于土壤CO?通量的模拟,还可以广泛应用于其他生物地球科学领域,特别是在处理非线性和非正态数据时。

尽管CopCoSim在模拟精度和不确定性估计方面具有明显优势,但其较高的计算成本可能成为应用中的一个挑战。例如,在时间序列模拟中,CopCoSim需要约967秒完成模拟,而SGCoSim仅需6秒;在空间模拟中,CopCoSim需要约46,610秒,而SGCoSim只需65秒。这种计算成本的差异主要源于CopCoSim需要对非正态分布和复杂依赖结构进行建模,而SGCoSim则依赖于线性相关模型和正态分布假设。然而,随着高性能计算和并行计算技术的发展,这种计算负担正在逐渐减轻,使得CopCoSim在更大规模数据集的应用成为可能。

综上所述,CopCoSim作为一种基于copula的联合模拟方法,能够更准确地捕捉变量之间的复杂依赖关系,尤其适用于非线性和非正态分布的数据。其在生物地球科学中的应用潜力巨大,尤其是在研究全球碳循环、气候变化及其对生态系统的影响等方面。尽管其计算成本较高,但通过优化算法和计算资源的提升,CopCoSim的广泛应用前景依然广阔。未来的研究可以进一步探索CopCoSim在更高维度变量建模中的表现,以及如何将其与其他方法(如机器学习)相结合,以提高模拟效率和准确性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号