深度学习不确定性量化的贝叶斯统一框架：理论构建与地球科学应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Environmental Data Science》：Uncertainty quantification for deep learning

【字体：大中小】 时间：2025年12月18日 来源：Environmental Data Science 1.7

编辑推荐：

　　本文针对深度学习在科学应用中不确定性量化（UQ）不完整与统计不一致的难题，提出了一种综合贝叶斯框架。该研究系统整合了输入数据、训练/测试数据、神经网络权重及模型缺陷四大不确定性源，通过引入创新性提案密度解决了权重后验估计中的粒子退化问题。在云自动转化率预测等案例中，验证了该方法优于传统方法（如Bagging、MC Dropout），揭示了训练数据不确定性为主导因素。这项工作为深度学习在地球科学等领域的可靠应用提供了统计严谨的UQ方法论。

在当今数据驱动的科学发现时代，深度学习（Deep Learning）已成为从复杂观测和数值模型中提取洞见的强大工具。特别是在地球科学领域，从天气预报到气候变化建模，深度学习模型被寄予厚望，用以替代计算昂贵的物理模型或学习那些尚未被完全理解的物理过程（如云微物理）。然而，尽管其预测能力令人印象深刻，深度学习在严肃的科学应用中的采纳却相对缓慢。一个核心的障碍在于，大多数深度学习模型仅提供一个“最佳估计”点预测，而缺乏对其预测结果可靠性的量化评估——即不确定性量化（Uncertainty Quantification, UQ）。在科学决策、风险评估和模型比较中，了解预测的不确定性与其预测值本身同等重要，甚至更为关键。

现有的不确定性量化方法，如贝叶斯深度学习（Bayesian Deep Learning）、Bagging、蒙特卡洛丢弃法（Monte-Carlo Dropout）、证据深度学习（Evidential Deep Learning）和分位数回归（Quantile Regression）等，虽然各具特色，但都存在显著局限。有的只关注部分不确定性来源（如神经网络权重的不确定性），有的在统计上不一致（如忽略训练后权重向量的似然值，导致集成成员重要性权重失衡），更重要的是，它们普遍忽略了现实科学数据中至关重要的不确定性来源，例如训练数据、测试数据以及新输入数据本身固有的测量或代表性误差。这种不完整性使得现有方法提供的“不确定性”可能具有误导性，无法满足地球科学等领域对严谨性的要求。

为了解决这一根本性问题，发表在《Environmental Data Science》上的这项研究，由科罗拉多州立大学大气科学系的Peter Jan van Leeuwen、Jui-Yuan Christine Chiu和Chen-Kuang Kevin Yang共同完成，提出了一个全面且统计一致的不确定性量化框架。该框架旨在为深度学习的回归问题提供一个完整的概率描述，确保所有主要的不确定性来源都得到恰当的处理和结合。

为了构建这一框架，研究人员采用了严格的贝叶斯概率论作为理论基础。他们首先推导了在给定新输入数据x以及训练数据集θ_tr和测试数据集θ_te的条件下，模型输出z的全概率密度函数（pdf）p(z|x, θ_tr, θ_te)的精确表达式。通过系统地应用贝叶斯定理和条件概率，他们将这个复杂的联合pdf分解为四个关键不确定性源的积分和乘积形式：

1.
新输入数据的不确定性 (p(x^t|x))：通过从新输入x的误差分布中采样可能的真实输入x^t来处理。
2.
训练和测试数据的不确定性 (p(θ_tr^t|θ_tr) 和 p(θ_te^t|θ_te))：通过从训练和测试数据点的误差分布中生成扰动数据集来处理。
3.
神经网络权重的不确定性 (p(w|θ_tr^t))：这是框架的核心创新点。研究人员引入“提案密度”（Proposal Density）的概念来解决直接从先验分布采样权重导致的“粒子退化”（Particle Degeneracy）问题。他们设计了一种训练策略，通过控制损失函数值，使得最终得到的一组训练后权重向量具有近似相等的似然值，从而在重要性采样中拥有均匀的重要性权重，确保了权重集成成员的多样性。
4.
神经网络模型本身的缺陷（不完美性） (p(z|w, x^t, θ_te^t))：通过测试数据来评估。对于每个扰动后的新输入，在测试数据集中寻找邻近的输入-输出对，用神经网络预测与真实输出之间的残差来表征模型的不确定性。

最终，通过蒙特卡洛（Monte Carlo）积分方法，对上述所有源进行大量采样和平均，得到最终输出的不确定性概率密度函数。该方法的关键技术步骤包括：基于贝叶斯定理的概率图模型构建、用于避免粒子退化的提案密度与等似然权重训练策略、以及结合所有不确定性源的蒙特卡洛集成平均。研究案例中使用的云自动转化率预测数据来源于美国大气辐射测量（ARM）用户设施在亚速尔群岛附近进行的ACE-ENA外场观测的飞机云探头测量。

4. 不确定性量化方法的比较：简单回归问题

研究人员首先在一个简单的二次多项式回归问题上对比了新方法与Bagging、分位数回归。结果清晰表明，Bagging由于忽略了权重的重要性权重，其集成成员几乎完全一致，导致不确定性估计严重不足（近乎退化为一个点）。分位数回归由于未考虑训练数据等不确定性，其预测区间过窄。而新方法则给出了更合理、更广泛的不确定性分布，并且通过增加集成大小验证了其收敛性。

5. 不确定性量化方法的比较：云过程速率预测

在预测云自动转化率（Autoconversion Rate）这个真实的地球科学应用中，新方法再次展现出其优势。预测的不确定性概率密度函数（pdf）形态多样，包括单峰、偏态甚至双峰分布，这反映了真实世界的复杂性。通过控制变量法分析各不确定性源的贡献，研究发现：

•
训练和测试数据的不确定性是主导因素，导致预测值有大约一个数量级的变化。
•
新输入数据的不确定性和神经网络模型的不确定性贡献次之，约为前者的一半。
•
神经网络权重的不确定性贡献最小。

这与简单例子中的发现一致，并凸显了在真实数据有显著误差的地球科学应用中，考虑数据不确定性的极端重要性。相比之下，Bagging方法产生的输出样本分布范围极小，完全无法捕捉到真实的不确定性，特别是双峰等复杂特征。

结论与讨论

本研究提出了一个为深度学习回归问题提供全面、统计一致的不确定性量化的新颖框架。它系统地纳入了输入数据、训练/测试数据、神经网络权重和模型缺陷这四大不确定性源，克服了现有方法（如Bagging、MC Dropout、Deep Ensembles）在统计上的不一致性（特别是权重集成成员的重要性权重问题）。通过理论推导和实验验证（包括简单回归和真实的云自动转化率预测），研究证明了该框架的可行性和优越性。研究发现，在地球科学应用中，数据不确定性往往是预测不确定性的主要来源，而非模型权重的不确定性。

这项研究的意义在于，它将深度学习不确定性量化的实践建立在了坚实的贝叶斯统计基础之上，为机器学习在需要高可靠性评估的科学领域（尤其是地球科学）的更广泛和可信赖的应用铺平了道路。该方法无需针对特定应用进行超参数调优，更具普适性。尽管当前框架未包含对训练数据分布外（Out-of-Distribution）输入的显式处理，但研究指出，其贝叶斯基础为未来融入物理约束等先验知识提供了自然的扩展接口。总之，这项工作标志着向能够真正“知悉其不确定性”的深度学习系统迈出了关键一步。

联系信箱：

粤ICP备09063491号

热点排行