利用基于深度学习的潜空间数据同化模型，在海洋中生成前所未有的非线性演化过程

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Ocean Modelling》：Generating Unseen Nonlinear Evolution in the Ocean Using Deep Learning-Based Latent Space Data Assimilation Model

【字体：大中小】 时间：2026年01月04日 来源：Ocean Modelling 2.9

编辑推荐：

　　本文提出基于深度学习的潜在空间数据同化框架DeepDA，有效捕捉海洋环境非线性时空特征，在数据稀疏和噪声条件下保持稳定，显著提升气候多尺度演变分析精度。

郑青宇|邵琪|韩贵军|李伟|李洪|王轩

天津大学海洋科学与技术学院，天津海洋环境研究与服务中心，中国天津300072

摘要

海洋观测技术的进步显著提高了地球系统预测的准确性。从观测数据中重建非线性演化过程的缺失信息对于研究海洋环境和气候的快速变化至关重要。然而，传统方法往往难以从数据中提取出这些看不见的非线性过程。事实上，历史数据中隐藏的大量动态演化信息尚未被有效挖掘。为了解决这个问题，我们提出了DeepDA，这是一种基于深度学习的潜在空间数据同化方法。DeepDA利用生成式深度学习模型来捕捉观测数据中的复杂时空多尺度特征和非线性演化过程。通过引入注意力机制，DeepDA能够有效同化海表温度的丰富历史信息。结果表明，即使在数据存在大量缺失或噪声水平较高的情况下，DeepDA在生成非线性演化方面仍保持高度稳定性。值得注意的是，当仅有10%的观测数据可用时，DeepDA的误差增加幅度仅限于40%，而完整数据情况下的误差增加幅度要大得多。此外，DeepDA在多尺度重建和气候变率分析方面表现出色，生成的非线性模式比线性方法更具物理一致性。

引言

作为地球系统的关键组成部分，海洋在调节全球气候和维持生态平衡方面发挥着重要作用。准确预测海洋的多尺度演化是我们的共同目标（Oh等人，2024年）。然而，海洋的非线性特性给数据同化（DA）和数值预报系统带来了重大挑战。数值预报的不确定性在很大程度上受到初始条件的影响（Deser等人，2020年）。DA技术通过将观测数据纳入数值模型来获得最优初始场（Gustafsson等人，2018年），从而提升预报能力。经过数十年的发展，DA方法已成为业务预报系统不可或缺的组成部分。

一系列研究致力于DA技术的发展和应用，这些技术可以分为两大类（Bannister，2017年；Thoppil等人，2021年）：变分DA方法和滤波DA方法。第一类方法包括三维变分（3DVar）和四维变分（4DVar），由于需要解决复杂的优化问题，这些方法通常计算成本较高（Fairbairn等人，2014年；He等人，2022年）。这些方法通常将非线性物理模型或观测算子线性化，但在强非线性海洋和大气场景中，这种线性化往往会导致次优的状态估计。此外，大多数变分DA方法缺乏通用性，需要针对不同的海洋模型进行定制设计。滤波DA方法包括集合卡尔曼滤波器（EnKF）、粒子滤波器及其变体（He等人，2020年；Ko等人，2018年；Moradkhani等人，2005年；Wang等人，2008年）。这些方法可以在新观测数据出现时进行更新，因此特别适合需要实时DA的应用。粒子滤波器可以处理非高斯和非线性问题，从而更准确地表示复杂的海洋系统（Evensen，2003年；Hoteit等人，2008年）。然而，在处理高维问题时，粒子滤波器或其他混合方法的计算成本仍然很高。总之，传统DA方法经常面临计算效率与非线性优化性能之间的平衡问题（Moraes等人，2020年）。

近年来，深度学习（DL）在地球科学领域得到了广泛应用，显著增强了我们对地球系统内部关键过程的理解（Li等人，2024年；Reichstein等人，2019年；Zheng等人，2024年）。大量研究表明，将DL与DA结合使用有望推动数值预报的突破（Bocquet，2023年；Cheng等人，2023年；Liang等人，2022年；Zheng等人，2022年）。例如，DL模型已与天气研究和预报模型（WRF）结合，用于学习3DVar DA过程（de Almeida等人，2022年），利用观测数据生成分析增量。DL在估计模型偏差方面也显示出有效性（Laloyaux等人，2022年），类似于弱约束的4D-Var。其他应用包括使用DL构建变分DA的切线线性模型和伴随模型（Hatfield等人，2021年），利用多层感知器（MLP）学习观测数据与模型解之间的关系（Wu等人，2021年），以及通过最小化预测与分析之间的误差来训练循环神经网络（RNNs）进行DA（Arcucci等人，2021年）。此外，还设计了一种端到端的DL框架，该框架采用自动微分技术作为高效的数据分析工具（Wang等人，2024年）。在学习的潜在空间内直接进行DA的新范式引起了极大的兴趣，有助于提高计算效率。与我们的研究密切相关的最新研究（Chen等人，2025a，2025b）使用自动编码器提取低维潜在状态并构建DL替代模型，如条件高斯Koopman网络（CGKN）。这些方法展示了潜在空间DA的巨大潜力，并验证了将DL作为专用模块纳入DA框架的有效性。然而，利用深度学习捕捉海洋多尺度非线性特征的研究仍然相对有限。因此，如何生成看不见的非线性演化是目前基于DL的DA方法面临的主要挑战（Bonavita和Laloyaux，2020年；Gettelman等人，2022年；Huang等人，2021年）。

海洋观测可以提供系统状态的准确表示，但其空间和时间分布往往较为稀疏。数值模型虽然具有完整的空间覆盖范围，但通常伴随着较大的模拟误差。基于DL的DA方法需要在三个问题上取得进一步突破：1）高效学习历史非线性演化模式。历史数据包含丰富的非线性演化过程。传统DA方法将历史数据纳入以构建背景误差协方差矩阵，但并未从这些数据中明确学习非线性演化模式。相比之下，基于深度学习的模型（在大量历史数据上训练）可以提取传统方法难以捕捉的非线性演化特征（如多尺度耦合）。因此，设计能够捕捉多尺度非线性特征的模型至关重要。2）潜在空间中的概率建模。潜在空间DA可以提高解决高维问题的效率。然而，在实际系统中，DL模型仅进行压缩是不够的，它们还应学习适应海洋非高斯特性的紧凑特征分布，并能够基于外部信息进行条件生成。这要求DL模型的潜在空间具备生成复杂分布的概率能力（Melinc和Zaplotnik，2024年）。3）物理可解释性。DL模型被视为“黑箱”，在决策过程中缺乏可解释性，这对模型的可靠性构成了重大挑战。为了确保生成的非线性演化在物理上是合理的，模型推断必须具备物理可解释性。

为了解决上述挑战，我们提出了DeepDA，这是一种基于深度学习的新型数据同化框架，它在潜在空间内运行，旨在生成多尺度非线性海洋演化过程。该框架的核心是一个生成代理模型（GenPM），该模型通过自监督方式训练，将海洋状态投影到紧凑的潜在空间中。GenPM的一个关键组成部分是时空注意力残差（STAR）模块，它能够有效提取多尺度特征。潜在空间DA模块采用自动微分技术，确保计算效率和灵活性。这种架构不仅支持多模态数据融合，还能显著提高DA过程的整体效率。为了评估所提出的DeepDA框架的可行性和可解释性，我们使用海表温度（SST）作为主要案例研究进行了一系列实验。

本文的其余部分组织如下。第2节详细介绍了DeepDA框架的设计和实验设置。第3节展示了实验结果并评估了DeepDA的性能。第4节讨论了DeepDA的鲁棒性和物理可解释性。最后，第5节总结了本文。

研究区域和变量

在本研究中，模型域（图1a）涵盖了太平洋，坐标范围为南纬60°至北纬60°，东经100°至西经60°。该区域受到复杂物理过程和显著非线性演化的影响。一个显著的例子是厄尔尼诺-南方涛动（ENSO），这是最强的年际气候波动（Cai等人，2021年）。为了更好地解析非线性演化，我们另外选择了两个子区域进行评估：日本的黑潮区域（图1b）。

DeepDA框架的整体性能

总体而言，DeepDA的分析增量和真实增量在空间分布上几乎相同（图4），表明其能够有效捕捉较大空间尺度上的信号。以7月15日为例，真实增量中的强西边界流（图4g）从西向东流动，覆盖了北太平洋大部分区域（北纬30°至50°）。在这一流中，正增量和负增量之间的差异约为5°C。

使用真实观测数据的鲁棒性评估

在本节中，我们进一步评估了DeepDA框架的鲁棒性。背景场是使用SEAS5季节性预报系统的51个集合成员构建的。SEAS5通过向模型初始条件添加扰动并生成集合预报来量化不确定性。观测数据来源于OISST产品的日记录。为了与SEAS5网格保持空间一致性，OISST数据被下采样到相同的

结论

本研究提出了一种在潜在空间中运行的通用深度学习数据同化框架，名为DeepDA。DeepDA提供了一个高效的非线性框架，用于数据同化中的时空特征整合，并初步验证了其在数据融合和生成方面的有效性。值得注意的是，DeepDA在生成非线性演化方面表现出强大的性能

作者贡献声明

郑青宇：概念化、方法论、软件开发、可视化、初稿撰写、审稿与编辑、资金获取。

邵琪：验证、数据管理、资金获取。

韩贵军：资源获取、方法论、资金获取、审稿与编辑。

李伟：方法论、资金获取、审稿与编辑。

李洪：形式分析、监督、调查。

王轩：项目管理、调查。

未引用参考文献

Choi等人，2017年；Eyre等人，2022年

CRediT作者贡献声明

郑青宇：初稿撰写、可视化、验证、软件开发、方法论、形式分析、概念化。邵琪：审稿与编辑、验证、方法论、资金获取、概念化。韩贵军：审稿与编辑、监督、项目管理、资金获取、概念化。李伟：审稿与编辑、验证、项目管理、方法论、资金获取、形式分析、概念化。李洪：

利益冲突声明

作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。

致谢

本工作部分得到了国家自然科学基金（项目编号425B2042、42376190、41876014和42406191）以及国家重点研发计划（项目编号2023YFC3107800和2022YFC3104800）的支持。我们衷心感谢两位匿名审稿人的建设性评论和富有洞察力的建议，这些评论和建议显著提高了本研究的质量。我们 also 深表感谢他们的专业指导

热点排行

新闻专题

联系信箱：

粤ICP备09063491号