在数据稀疏、不精确且分布聚集的情况下,基于分位数回归森林的空间预测中,数据和模型不确定性的重要性排序

《Ecological Informatics》:Importance ranking of data and model uncertainties in quantile regression forest-based spatial predictions when data are sparse, imprecise and clustered

【字体: 时间:2025年10月10日 来源:Ecological Informatics 7.3

编辑推荐:

  qRF模型中数据与模型不确定性的影响分析及优化建议。采用敏感性分析方法,量化了样本空间分布(SIC数据)、测量误差和模型超参数对预测性能的影响。研究表明,SIC数据下协变量数量选择(Nvar)最为关键,其次为空间距离场(EDF)的引入和超参数mTry的优化,而样本分布扰动(Tr)和数据测量误差(Yerr)的重要性相对较低。结论强调需优先优化协变量选择,并根据SIC特征调整模型设置。

  在环境研究领域,空间预测的不确定性分析是至关重要的。本文通过一种称为“分位数回归森林”(Quantile Regression Forest, qRF)的方法,探讨了两种不确定性对模型预测性能的影响:一是模型不确定性,这包括了qRF的建模选择,如超参数的设置、变量选择和是否包含空间欧几里得距离场(EDFs);二是数据不确定性,这涉及测量误差和样本的空间分布。研究特别关注了在空间数据存在稀疏性、不精确性和聚类特征(称为SIC数据)的情况下,这些不确定性对模型性能的影响。

研究中使用了两种环境变量,即地上生物量(AGB)和土壤有机碳储量(OCS)的数据,用于模拟西方欧洲的预测结果。通过定义一系列重复随机实验,研究覆盖了不同的样本分布情况、聚类数量、聚类外的样本数量以及预测性能评分等多方面的情况。研究结果表明,无论数据是否为SIC类型,选择变量(即covariates)的不确定性始终是最重要的影响因素。当SIC数据呈现单个聚类时,包含EDFs的不确定性重要性会随着聚类强度的增加而提高。然而,这些结果对于SIC数据的空间分布特征(如聚类位置和样本分布)具有一定的敏感性。当SIC数据呈现多个聚类时,包含EDFs的不确定性甚至与变量选择的不确定性相当重要。此外,对于AGB,研究强调了超参数 $ m_{try} $ 的选择对于qRF模型预测性能的影响,因此需要特别关注。

为了评估模型的预测性能,研究采用了连续等级概率得分(CRPS)作为衡量预测概率分布质量的指标。CRPS可以同时衡量模型预测的校准性和精确性,即估计的可靠性与预测值的集中程度。此外,研究还考虑了两种替代性能指标,即绝对预测误差(AE)和区间得分(IS),以分析模型预测性能在不同情况下的表现。结果表明,无论采用哪种性能指标,变量选择始终是影响qRF性能的关键因素,而在SIC数据中,EDFs的使用和超参数 $ m_{try} $ 的选择也显得尤为重要。

研究中提出了一种基于PAWN方法的全局敏感性分析框架,以量化不同不确定性来源对qRF性能的影响。通过在不同的数据分布和模型参数设置下进行随机扰动,研究能够评估这些不确定性对预测结果的影响程度。对于SIC数据,某些不确定性来源(如变量选择、EDFs的使用、超参数 $ m_{try} $ 的选择)的影响更为显著。例如,在SIC数据中,如果数据仅呈现单个聚类,那么包含EDFs的不确定性的重要性会随着聚类强度的增加而增强;而当数据呈现多个聚类时,EDFs的重要性甚至可能与变量选择相当。

研究还发现,当数据为SIC类型时,qRF模型对样本空间分布的扰动相对不那么敏感。这是因为聚类数据在局部区域内集中,即使通过随机扰动方法改变了样本分布,仍然有足够的相关数据用于模型训练。相比之下,对于完全随机分布的数据,样本空间分布的扰动对模型性能的影响更大。此外,研究指出,测量误差的影响在SIC数据中可能不如变量选择和EDFs的使用那么显著,但仍然需要关注,因为这种误差会影响预测结果的精确性。

研究还探讨了模型参数的选择对预测性能的影响。例如,超参数 $ m_{try} $ 的选择在AGB的预测中显得尤为关键,而OCS的预测则相对不受其影响。这表明,在不同的环境变量中,某些模型参数的重要性可能不同。因此,研究建议在实际建模过程中,根据具体环境变量的特点,对模型参数进行更细致的调整和优化。

研究的结果对于环境建模实践具有重要的指导意义。首先,变量选择是提升qRF模型预测性能的关键步骤,无论数据是否为SIC类型,都应该优先考虑这一因素。其次,当数据呈现聚类特征时,包含空间信息的EDFs的使用和超参数 $ m_{try} $ 的选择对模型性能具有显著影响,因此需要特别关注。最后,研究强调了在处理空间数据时,需要考虑数据分布的结构特征,以及如何通过不同的建模方法和敏感性分析来应对这些特征带来的不确定性。

综上所述,本文的研究为环境建模中的不确定性分析提供了新的视角,并展示了在不同数据分布情况下,模型参数和数据特征对预测性能的影响。研究结果不仅适用于qRF模型,还为其他机器学习模型在处理空间数据时的不确定性分析提供了参考。未来的研究可以进一步探索不同的建模方法,以及如何在实际应用中优化这些不确定性因素的处理方式,以提高空间预测的准确性和可靠性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号