微物理过程速率(Microphysical Process Rates, MPRs)的校准保形预测(Conformal Prediction, CP)区间

《Environmental Data Science》:Calibrated conformal prediction intervals for microphysical process rates

【字体: 时间:2026年07月03日 来源:Environmental Data Science 2.8

编辑推荐:

  保形预测(Conformal Prediction, CP)可为任意回归模型生成统计上有效的预测区间(Prediction Intervals, PIs),无需修改模型且计算成本低廉。为评估其实际应用价值,研究人员将保形方法应用于六种云微物理过程速率(Micr

  
保形预测(Conformal Prediction, CP)可为任意回归模型生成统计上有效的预测区间(Prediction Intervals, PIs),无需修改模型且计算成本低廉。为评估其实际应用价值,研究人员将保形方法应用于六种云微物理过程速率(Microphysical Process Rates, MPRs)的机器学习模拟器(Emulators)的不确定性量化。MPRs描述大气中云内小尺度过程(如降水形成及气溶胶–云相互作用),有助于理解天气与气候。模拟器基于有限区域数值天气预报配置下ICOshedral Nonhydrostatic(ICON)模式的模拟输出训练。研究人员比较了用于确定性模拟器的Split CP与用于分位数回归(Quantile Regression, QR)模拟器的保形化分位数回归(Conformalized Quantile Regression, CQR)。两种CP方法平均而言均产生校准良好且锐利的预测区间,但CQR在跨越数个量级的变量上提供更一致的区间,使其成为气候变量不确定性量化中的优选方法。
本文解读论文《Calibrated conformal prediction intervals for microphysical process rates》,发表于《Environmental Data Science》。
研究背景与意义
在大气数值预报中,纯粹确定性方法日益显现局限,次网格尺度参数化尤为突出——网格尺度状态变量无法唯一确定未分辨过程(如云微物理)的净效应,这推动了概率框架与稳健不确定性量化(Uncertainty Quantification, UQ)的需求。云微物理过程速率(Microphysical Process Rates, MPRs)描述水凝物间相变与相互作用引起的预报变量变化,是理解降水形成、云动力及地球辐射收支的关键,但因跨数个量级且存储量大,高分辨率模拟通常不保存MPRs。机器学习模拟器(Emulators)可基于大气状态变量近似MPRs的计算,但仍需可靠的UQ。保形预测(Conformal Prediction, CP)是模型无关、分布自由、可给出有限样本有效性预测区间(Prediction Intervals, PIs)的框架,仅需数据可交换性(Exchangeability),比常用集成方法计算廉价,但在天气气候领域应用较少。本研究将Split CP与保形化分位数回归(Conformalized Quantile Regression, CQR)应用于基于ICON模式输出的六种MPRs模拟器UQ,检验其校准性与锐度(Sharpness)。
主要关键技术方法
研究人员使用ICON模式(version 2.6.6)有限区域配置(Δx≈2 km,欧洲域,2022—2023年逐月1日模拟),提取双矩(Two-moment)bulk微物理方案(Seifert and Beheng, 2006)计算的六种MPRs(暖雨自碰并增长Autoconversion、碰并增长Accretion、雨水蒸发Rain evaporation、雨水冻结Rain freezing、雪/霰/雹融化为雨Rain melting、总凇附Total riming)及对应输入特征(质量混合比、数浓度、温度、气压、密度)。样本过滤阈值qcrit=10?12kg kg?1,目标取log10变换,数据集按70%(训练)/10%(校准)/10%(验证)/10%(测试)划分。对每种MPR分别训练:(i)确定性模拟器——随机森林(Random Forest, RF)、XGBoost(XGB)、神经网络(Neural Network, NN),用Split CP加绝对残差非一致性得分(Nonconformity Score, Ri=|Yi?μ?(Xi|)校准90% PIs;(ii)分位数回归(Quantile Regression, QR)模拟器——分位数RF(Quantile RF, QRF)、分位数XGB(QXGB)、分位数NN(QNN),预测αlo=0.05与αhi=0.95条件分位数,用CQR非一致性得分Ei=max{Q?αlo(Xi)?Yi, Yi?Q?αhi(Xi)})校正PIs。评估指标为预测区间覆盖概率(Prediction Interval Coverage Probability, PICP)与归一化平均预测区间宽度(Normalized Mean Prediction Interval Width, NMPIW),并按真值大小分箱检验条件覆盖表现。
研究结果
4.1. Deterministic performance of microphysical process rate emulation(微物理过程速率模拟的确定性性能)
研究人员通过计算决定系数R2(QR模拟器取预测分位数中位值)评估基模型精度。NN模拟器对所有MPRs取得最高R2(0.77–0.99);QR模拟器除QRF对Autoconversion的R2≈0.02外,其余R2为0.43–0.99,与确定性模型相当,表明基模拟器具备足够拟合能力供后续CP校准使用。
4.2. Conformal prediction uncertainty estimates(保形预测不确定性估计)
研究人员计算各模型–方法的PICP与NMPIW。SCP与CQR校准后PICP均接近名义水平90%,少数略低可能源于轻微可交换性违背或有限样本;未校准QR区间有时偏离更大,CQR校正可使欠覆盖或过度覆盖区间向90%靠近(如QRF对Melting和Total riming改善明显)。平均NMPIW方面SCP整体更窄,对Autoconversion和Rain freezing比CQR小2–3个量级;其余MPRs两者相差≤1个量级。按真值分箱分析显示:SCP的区间半宽固定为Q1?α,真值低于Q1?α时PICP≈100%但区间过宽,高于Q1?α时PICP骤降远<90%,即不能随目标幅度自适应;CQR在各量值区间PICP≈90%,区间宽度随输入态自适应变化,对跨量级MPRs提供更可靠的条件覆盖。因此尽管平均更宽,CQR在整个动态范围内给出一致校准的区间。
讨论与结论翻译
研究人员将保形方法应用于微物理过程速率(MPRs)以推导校准预测区间,从而能从高分辨率大气模拟中反推详细过程信息。研究人员比较了计算简便的Split Conformal Prediction(SCP)与需训练分位数回归模型的Conformalized Quantile Regression(CQR)。应用于高性能机器学习模拟器时,两种方法平均均得到满意的校准性(PICP)与锐度(NMPIW)。某些情形下PICP略低于名义水平,可能暗示可交换性假设轻微违背。此外,SCP对超过Q1?α的MPR值表现出强分箱依赖性PICP及不可靠区间。相反,CQR适应异方差性(Heteroscedasticity)因而更好反映MPRs的分布特征,在大幅值尤为重要时其为更优选择。未来工作可探索替代非一致性得分及改进分位数回归损失函数,以进一步提升天气气候科学中多样分布的高效可靠UQ。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号