《Neural Networks》:On Scientific Foundation Models: Rigorous Definitions, Key Applications, and a Comprehensive Survey
编辑推荐:
本综述系统梳理了科学基础模型(SciFM)这一新兴领域,涵盖其核心定义、架构分类(如Transformer、非Transformer)、训练策略(预训练、微调、元学习)及其在偏微分方程(PDE)求解、化学材料科学、生物学、天气气候、地球观测和地球物理学等关键科学领域的应用进展。文章重点探讨了SciFM在领域适应(Domain Adaptation)、领域泛化(Domain Generalization)、问题适应(Problem Adaptation)和问题泛化(Problem Generalization)四个维上的能力,并指出了当前模型在数据质量、计算效率、多模态融合及物理一致性方面面临的挑战与未来发展方向。
科学基础模型(SciFM)正以前所未有的速度重塑科学研究范式,其核心在于利用大规模预训练和迁移学习,构建能够解决广泛科学问题的通用模型。与专注于自然语言处理的大语言模型(LLM)不同,SciFM旨在学习并模拟物理、化学、生物等领域的底层规律,尤其擅长处理由偏微分方程(PDE)描述的系统。
科学基础模型的内涵与架构
SciFM可被视为一种经过海量科学数据预训练的模型,其后可通过微调适应各种下游任务。其核心能力体现在四个维度:领域适应(Domain Adaptation,模型通过少量目标领域数据微调以适应新数据分布)、领域泛化(Domain Generalization,模型在未见过的数据分布上展现零样本或小样本推理能力)、问题适应(Problem Adaptation,模型通过微调解决与训练任务相关但不同的新问题)以及问题泛化(Problem Generalization,模型无需或仅需极少调整即可解决与训练任务原理迥异的新问题)。架构上,Transformer因其强大的序列建模和注意力机制成为主流选择,衍生出如视觉Transformer(ViT)、轴向Transformer等变体,并常与高效的注意力机制(如FlashAttention)结合以降低计算复杂度。训练策略则强调预训练-微调范式、元学习以及多保真度学习,以平衡模型通用性与特定任务性能。
攻克微分方程:从专用求解器到通用算子
在PDE求解领域,研究从专用神经网络求解器(如物理信息神经网络PINN)迈向通用基础模型。例如,POSEIDON利用可扩展算子Transformer(scOT)学习PDE解算子,其分层设计和轴向注意力机制有效处理了高维张量。PROSE框架则开创了多模态学习,能同时预测数值解和推导符号形式的控制方程,实现了算子与符号的融合。Universal Physics Transformers(UPT)通过编码器-近似器-解码器结构,统一处理欧拉(网格)和拉格朗日(粒子)描述下的物理场演化。更具突破性的是情境操作学习,如ICON模型,它受大语言模型中的情境学习启发,仅需提供少量输入-输出示例作为“提示”,即可让模型快速适应新的PDE或算子,展示了强大的小样本和零样本泛化能力。这些模型在流体动力学、波传播等问题上显示出媲美甚至超越传统数值方法的潜力。
变革化学与材料研发:从分子表示到材料设计
在化学与材料科学中,SciFM正加速分子与材料的发现。早期模型如MoLFormer和ChemBERTa将分子结构(如SMILES字符串)视为序列,通过Transformer学习分子表示,用于性质预测。随后,研究转向多模态与多视图融合。例如,有工作提出动态融合网络,通过可学习的门控机制自适应整合SMILES、SELFIES和分子图等多种分子表示。混合物专家(MoE)框架则通过路由机制激活不同“专家”子网络,高效处理多视图数据。生成式模型如MatterGen利用扩散模型生成稳定的无机晶体结构,并能通过微调偏向特定化学空间或性质范围。图神经网络GNoME通过主动学习循环,成功预测了数百万种新材料,并展现出对包含五种以上元素的高熵合金等新化学空间的外推能力。这些模型在药物发现、催化剂设计等领域具有广阔前景。
解码生命奥秘:从单细胞到药物重定位
生物学领域的SciFM致力于从海量组学数据中学习生命过程的调控规律。scFoundation和scBERT是针对单细胞RNA测序(scRNA-seq)数据的基础模型,它们通过掩码重建等自监督任务学习细胞和基因的通用表示,可用于细胞类型注释、聚类、药物反应预测等下游任务,即使面对测序深度差异和批次效应也表现出强鲁棒性。对于分子层面,MolE将分子图转化为原子环境标记,预训练后能够快速适配ADMET(吸收、分布、代谢、排泄、毒性)性质预测。TxGNN则在大型生物医学知识图谱上训练,能够进行药物重定位预测,甚至对缺乏上市药物的罕见病提出零样本治疗候选方案。在医学影像方面,DINO-Reg将自然图像上预训练的视觉基础模型DINO-v2适配于医学图像配准任务,实现了最先进的性能,展示了跨领域知识迁移的威力。
精准预测天气气候:从数值预报到AI驱动
天气气候建模是SciFM取得显著成功的领域。模型如Pangu-Weather、GraphCast和FourCastNet基于Transformer或图神经网络,在ERA-5等再分析数据集上预训练,在中短期天气预报的准确性和速度上(万倍加速)已媲美甚至超越传统的数值天气预报(NWP)系统。更先进的模型如Aurora和ClimaX致力于构建统一的基础模型,通过编码器-处理器-解码器架构处理多变量、多分辨率输入,不仅能进行天气预报,还能通过微调应用于气候投影、降尺度、大气化学成分模拟等复杂任务。NeuralGCM则作为神经代理模型,将物理约束融入架构,实现了从数天天气到数十年气候尺度的一致性模拟。这些模型对极端天气事件(如台风)的追踪和预测展现了其应用价值。
洞察地球脉搏:从遥感影像到地震监测
地球观测领域的SciFM旨在处理多源遥感数据。Prithvi系列模型(如Prithvi-EO-1.0/2.0)基于掩码自编码器在Harmonized Landsat Sentinel-2(HLS)等数据集上预训练,其编码器可微调用于土地覆盖分类、洪水制图、野火疤痕分割等多种任务,展示了卓越的领域泛化能力。SpectralGPT专门针对多光谱遥感影像设计,采用渐进式预训练以适应不同尺寸的输入图像。TerraMind作为生成式多模态基础模型,整合光学、雷达、高程、文本等多模态数据,在PANGEA基准测试中取得了领先性能。在地球物理学领域,SeisCLIP和SeisT等模型从地震波形数据中学习通用表示,用于地震检测、震相拾取、震源机制分析等任务,并在跨区域数据集上表现出强大的泛化能力,为地震监测和灾害预警提供了高效工具。
挑战与未来展望
尽管SciFM前景广阔,但仍面临诸多挑战。数据方面,高质量、大规模、多模态科学数据的稀缺和异质性仍是瓶颈。模型层面,计算成本高昂、对物理规律的忠实性(防止“幻觉”)、以及复杂边界条件和非线性系统的处理能力有待提升。可靠性方面,模型的可解释性和不确定性量化至关重要,尤其是在高风险的科学决策中。未来,SciFM的发展将趋向更强大的多模态融合能力、更高效的架构与训练策略、以及将物理先验更深入地嵌入模型学习过程。最终目标是构建真正通用、可靠、可信的科学智能体,推动科学发现进入新范式。