基于数学手册知识引导的偏微分方程生成式发现方法

《Nature Communications》:Generative discovery of partial differential equations by learning from math handbooks

【字体: 时间:2025年11月22日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对数据驱动PDE发现中搜索空间与优化效率难以平衡的难题,提出知识引导的生成式框架EqGPT。通过从数学手册提取PDE结构进行科学增强训练,结合"生成-评估-优化"循环,成功在稀疏噪声数据、复杂区域和高维场景中准确发现PDE,并在实际波浪实验中发现了未报道的强非线性表面重力波控制方程。

  
在科学研究和工程应用中,偏微分方程(PDE)是描述自然现象中复杂动态过程的重要数学工具。传统上,PDE的开发主要基于第一性原理推导,通常依赖于人工努力。近年来,随着数据可获取性和计算科学的进步,直接从高保真观测数据中发现PDE已成为识别多领域复杂系统中潜在控制律的有前途方法。与黑箱模型相比,发现的PDE具有更好的可解释性和泛化能力,能够揭示封闭机制和深刻见解,如守恒律和对称性。
然而,现有PDE发现方法面临严峻挑战。稀疏回归技术虽然计算效率高且实现简单,但在实践中存在局限性,因为枚举所有可能的候选项往往不可行,特别是考虑到非线性相互作用和导数项中复合表达式的多样性。而符号回归方法虽然减轻了对预定义库的依赖并大幅扩展了搜索空间,但也带来了优化挑战,特别是在高噪声条件或多变量系统中。
最近生成模型的进展为数据驱动的方程发现带来了新机遇,但目前的方法仍存在明显不足。基于提示的发现方法严重依赖人工参与提示设计和输出评估,通常缺乏直接处理观测数据的能力;数据到序列的发现方法需要大规模PDE及其解的配对数据集进行训练,给定PDE模拟的高计算成本,此类模型目前范围和精度有限;序列优化发现方法则继承了符号回归的困难,在PDE发现中,复杂性的主要来源不是数学嵌套,而是微分算子的复杂组合。
针对这些挑战,徐浩等人提出了一种不同策略,探索如何将现有数学和科学知识嵌入方程发现过程。研究核心思想受到"他山之石,可以攻玉"的启发,即从已建立科学文献中总结的PDE结构的一般知识可以指导特定背景下的新方程发现。
研究人员开发了一个集成知识引导和数据驱动策略的PDE发现框架,引入生成式方程表示(GRE)和科学增强训练(SAT)两项技术。在GRE中,提出了结构化方程编码方案,将方程解析为由算子(如算术符号)和基本物理项组成的词汇表,这些单元组合形成自由形式方程的序列表示。在SAT中,训练了一个名为EqGPT的生成模型,从PDE数据集中学习PDE项之间的共现模式,同时隐式过滤掉数学上不合理的表达式。
关键技术方法包括:从数学手册构建221个PDE结构的数据集,通过数据增强生成7072个句子式条目;建立基于GPT-2架构的EqGPT生成模型;训练全连接人工神经网络作为代理模型处理稀疏噪声数据;设计奖励函数评估生成PDE的质量;构建"生成-评估-优化"循环进行自主优化。
发现具有稀疏和噪声数据的典型PDE
研究通过对8个来自不同科学领域的典型PDE进行概念验证实验,证明了该框架在稀疏和噪声数据下的性能。结果显示,该框架在大多数情况下能够以超过50%的噪声和少于1000个数据点准确发现正确的PDE,这证实了该方法在稀疏和噪声数据下发现PDE的通用能力。
值得注意的是,该框架能够发现具有更广泛形式的PDE,如不常见的导数项和带有分数的项,这些在以前很难发现。例如,包含罕见导数项uxt的PDE和涉及分数项ux/x的PDE都被成功发现,这表明该方法能够处理更广泛形式的PDE。
与现有PDE发现算法的比较
与PDE-FIND、广义遗传算法(GGA)、DISCOVER等现有方法的比较分析表明,EqGPT在搜索范围和优化效率之间实现了平衡。对于基线PDE,EqGPT的时间开销可能略高于稀疏回归和遗传算法,但总时间开销是可接受的,仅为数十秒。
在与GP-SINDy的比较中,EqGPT在稀疏和噪声场景下表现出高稳定性和准确性,即使只有697个数据点,也能保持对高达0.3噪声水平的鲁棒性。相比之下,GP-SINDy在使用2665或1353个数据点时只能耐受高达0.2的噪声水平。
复杂计算区域中非线性动态系统的识别
边界条件和计算区域在模拟动态系统行为中起着重要作用。在现实场景中,计算区域通常是复杂和不规则的。该研究探索了在复杂区域内发现PDE的能力,包括简单圆盘区域、"笑脸区域"、不连续的 glyph边界区域和三维航天飞机区域。
实验结果表明,即使在高度不规则和复杂的区域中,该框架也能准确识别正确的PDE结构并估计系数,证明了该方法在处理复杂不连续区域和高维复杂区域时的准确性和稳定性。
高维空间中复杂PDE的扩展
该框架很容易扩展到更高维度,因为PDE数据集包含从一到三维的PDE。此外,微分算子如散度算子(?)、拉普拉斯算子(Δ)甚至双调和算子(Δ2)都被考虑在内,可以通过EqGPT模型生成。
研究进行了二维Burgers方程、H形弹性膜振动和三维油水两相驱替过程等实验。结果表明,即使在涉及多个状态变量的三维多相流系统中,该框架也能够揭示多个状态变量之间的潜在关系,证明了其在三维空间和时间中处理复杂物理过程的能力。
从真实实验数据中发现新PDE
作为一个实际例子,研究考虑了从真实实验数据中发现强非线性表面重力波向破碎传播的控制方程。尽管波浪破碎在自然环境中普遍存在,但其详细的物理和统计机制仍不完全清楚,使得此类过程的建模成为重大挑战。
研究使用来自BUBER和EURUS两个实验活动的真实世界数据,通过EqGPT发现了控制方程:ηt = c1ηx + c2ηxxx + c32)xxx。该PDE在所有实验中表现良好,其后验预测与观测数据紧密匹配,证明了其在表示这一物理过程时的准确性。
从流体力学分析来看,发现的PDE在物理上是合理的,它包含了ηx项作为主导阶传播项,这与经典波浪理论一致。此外,观察到了新的函数形式(η2)xxx,其中三重偏x导数可以在经典的浅水方程-KdV方程中找到,但新形式不是线性色散项,而是可以在波浪向破碎事件演化时产生更高频率的谐波。
这项研究探索了一种知识引导的PDE发现方法,代表了将数据驱动方法与领域知情生成相结合的重要一步。该框架解决了纯数据驱动方法中平衡搜索空间和优化效率的长期困境。通过整合从数学手册提取的先验知识,该方法能够自主生成和优化自由形式PDE,在涉及稀疏或噪声数据、复杂计算区域和高维领域的挑战性场景中具有改进的准确性和鲁棒性。
从真实世界实验中发现新控制方程的实际例子证明了该方法的实用价值,并强调了本工作的核心原则:"他山之石,可以攻玉",即从现有方程中广泛学习可以促进新控制律的识别。考虑到所提出的生成框架的稳定性、精确性和可扩展性,它在科学社区的PDE发现中具有实际应用前景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号