综述:在基本气候变量分析中利用不确定性信息的实用导论
《SURVEYS IN GEOPHYSICS》:A Practical Introduction to Utilising Uncertainty Information in the Analysis of Essential Climate Variables
【字体:
大
中
小
】
时间:2025年09月27日
来源:SURVEYS IN GEOPHYSICS 7.1
编辑推荐:
本综述为环境科学研究者系统介绍了基本气候变量(ECV)不确定性分析的全流程方法。通过海表温度(SST)、植被指数(NDVI)等典型案例,详解了不确定性传播、数据聚合(2σ2[y(x)]=∑(?y/?xi)2σ2(xi))与融合(xagg=∑xi/σ2(xi)/∑1/σ2(xi))的核心算法,破除“显著性检验”等常见认知误区,为气候变化研究提供可操作的质控框架。
引言:不确定性——科学测量的灵魂
在气候科学领域,每个测量值都伴随着一个关键问题:我们对其真实性的把握有多大?根据国际计量学权威BIPM的定义,不确定性是“基于所用信息表征被测量值分散性的非负参数”。它与“误差”有着本质区别——误差是测量值与真实值的差异,而不确定性则是这种差异可能分布范围的量化表达。随着空间机构要求所有ECV产品提供逐像素不确定性估计,如何正确理解和使用这些信息已成为环境研究者的必备技能。
不确定性考量:从定性认知到决策支持
海温前沿监测中的不确定性分解
以欧洲空间局气候变化倡议的海表温度产品为例,其不确定性预算包含三个具有不同相关尺度的分量:像素间不相关误差(主要来自仪器噪声和采样缺失)、天气尺度相关误差(源于大气校正模型偏差)以及大尺度系统误差(由仪器定标误差主导)。通过分析格陵兰岛东南海岸的SST数据发现,强烈的温度锋面区域在非相关不确定性分量中表现最为显著。
这一现象揭示了采样不确定性的本质:在数据重网格化过程中,由于云遮挡导致的数据缺失,在温度梯度大的区域会引入更大的不确定性。值得注意的是,大不确定性并不等同于坏数据——若仅根据不确定性阈值过滤数据,将系统性剔除所有锋面区域,导致分析结果产生偏差。
不确定性的数学表达形式
不确定性可采用参数化(如标准不确定度16±2 cm,对应正态分布的标准差σ)或非参数化(如置信区间9.3(9.1-9.8)年)两种表达方式。前者基于先验误差知识的概率分布假设,后者则完全依赖经验抽样。从本质上看,置信区间更接近频率学派的表达,而标准不确定度则具有贝叶斯色彩。
不确定性计算:从理论公式到实践应用
误差传播定律及其实现
不确定性传播的核心公式为σ2[y(x)]=∑(?y/?xi)2σ2(xi)。以归一化植被指数NDVI=(ρir-ρred)/(ρir+ρred)为例,其不确定性可通过偏微分推导得出。当考虑红光与近红外通道误差的相关性时,公式需引入协方差项扩展为矩阵形式kTSk。
数据聚合中的尺度效应
将地表温度数据从0.01°粗化至0.05°分辨率时,需针对不同相关尺度的不确定性分量采用差异化处理:非相关分量按1/√n规律衰减,完全相关分量则保持平均值不变。对于地表分量这种部分相关的特殊情况,需根据生物群落分布显式构建协方差矩阵。
多源数据融合策略
当多个测量值可用时,采用加权最小二乘法进行融合:xagg=∑xi/σ2(xi)/∑1/σ2(xi)。ESA CCI土壤湿度产品通过三重碰撞分析获取稳健的不确定性估计,即使存在未量化的误差协方差,加权融合结果仍优于简单算术平均。
对于不确定性预算不一致的数据集(如气溶胶光学厚度卫星产品与AERONET地面观测),可通过“预期差异”ux(i)=√[σ2(τs(i))+σ2(τa(i))]与偏差校正差异dx(i)的分布匹配,计算校正因子σ*2(τs)=(?|dx|?/?|ux|?)2σ2(τs)来校准不确定性估计。
不确定性使用:验证与同化的艺术
数据验证的三步法
验证过程包含数据匹配、充分采样和统计评估三个关键环节。匹配策略需考虑变量的时空协方差特征——气溶胶数据建议4-6小时时间窗口,而具有昼夜循环的二氧化氮则需严格时间匹配或周期校正。
样本代表性至关重要:需覆盖被测变量的全域范围(最小值、最大值、众数)、不同季节、地表类型和观测条件。常见的“晴空偏差”就是代表性误差的典型例子——红外遥感无法穿透云层,导致表面温度采样系统性偏离全天空条件。
数据同化中的不确定性整合
数据同化本质上是模型模拟与观测值的加权融合。变分同化通过最小化成本函数J(x)=1/2(x-xb)TP-1(x-xb)+1/2(y-Hx)TR-1(y-Hx)实现全局优化;而顺序同化(如卡尔曼滤波)则通过递推公式Kt=Pt-(Pt-+HtRtHtT)-1实现序列更新。
实践中,ECV不确定性很少直接用于同化系统,主要原因在于定义不匹配:卫星不确定性针对传感器足迹内的真值,而模型需要网格尺度的平均值。此外,模型不确定性估计远比观测复杂,需考虑强迫场误差、参数误差、代表性问题等多重因素。
不确定性沟通:避免常见误区
显著性检验的认知陷阱
在地图趋势分析中,常用阴影标注“显著”区域(p值小于阈值)。然而p值仅表示数据与特定统计模型的不兼容程度,并不能衡量趋势由随机偶然产生的概率。更合理的做法是基于不确定性本身(如趋势超过两倍标准不确定度)进行标注,直接体现数据的检测极限。
术语使用的精确性
需严格区分“误差”(真实值与测量值的偏差)和“不确定性”(误差分布的描述)。避免使用“随机/系统误差”这种过度简化的表述,而应强调误差来源(随机效应/系统效应)及其相关尺度。值得注意的是,“相关不确定性”实质是“由相关误差效应产生的不确定性分量”的简写,在术语上存在内在矛盾。
表达规范的一致性
IPCC报告广泛使用置信区间(如9.1±0.9年)应对误差分布的非对称性。在比较不同来源的数据时,必须确认不确定性表达方式的一致性——括号内的范围可能是极值而非置信区间。清晰说明不确定性信息的类型是避免误解的关键。
结论:拥抱不确定性,提升科学可靠性
不确定性是理解和使用数据的必要语境。即使不完善的不确定性预算也能为数据生产者和用户提供重要价值。大规模数据剔除基于不确定性阈值可能误删关键信息区域,需谨慎使用。
ECV的相关性结构评估是许多应用的基础,可通过建模研究和长期观测确定。在统计实践中,应避免过度依赖显著性检验等简化方法,转而关注不确定性本身传达的怀疑程度。
数据呈现方面,生产者需与用户社区协商确定不确定性词典,验证研究应通过控制混杂变量证明数据来自单一群体。当误差分布未知时,置信区间提供了一阶估计;线性回归需考虑所有输入的误差,避免使用简单最小二乘法。
最终,不确定性并非令人畏惧的障碍,而是科学对话的起点。通过诚实和尽最大努力的实际方法,即使不完美的预算也能传达不确定性试图表达的大部分信息,并为未来改进奠定基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号