基于大型视觉-语言模型的太阳能预报

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

基于大型视觉-语言模型的太阳能预报

《Atmospheric and Oceanic Science Letters》：Solar forecasting with large vision–language models

【字体：大中小】 时间：2026年06月09日 来源：Atmospheric and Oceanic Science Letters 3.2

编辑推荐：

　　精准太阳能预报对于电网集成至关重要，但由于云层的随机性仍然具有挑战性。尽管过去十多年一直在研究利用机器学习增强物理预测框架，但进展是渐进的。基础模型的最新进展重新燃起了对太阳能预报实现跨越式发展的乐观情绪。研究人员提出了VISIF（视觉集成太阳辐照度预测器），

精准太阳能预报对于电网集成至关重要，但由于云层的随机性仍然具有挑战性。尽管过去十多年一直在研究利用机器学习增强物理预测框架，但进展是渐进的。基础模型的最新进展重新燃起了对太阳能预报实现跨越式发展的乐观情绪。研究人员提出了VISIF（视觉集成太阳辐照度预测器），一种利用预训练大型视觉-语言模型（LVLM）基于卫星进行太阳辐照度预报的方法。研究人员没有假设自然图像-语言对齐可以直接迁移到卫星遥感和地面辐射计数据，而是通过任务特定接口适配预训练的LVLM：一个修改的多光谱视觉嵌入层、一个可学习的时间序列分词器和一个预报解码器。LVLM骨干网络随后作为预训练的多模态序列处理器，用于融合平流卫星图像与历史地面观测。跨地理多样化站点的实验表明，VISIF持续优于最先进的单模态和多模态基线，相对于CrossViViT基准，平均绝对误差（MAE）降低超过21%。规模分析进一步表明，中小型骨干网络在不同气候下泛化能力更好。已提供代码以确保可复现性。

太阳能预报是光伏并网运行的关键，但云层动态变化带来的随机性导致其始终面临挑战。尽管过去十多年中，研究人员尝试利用机器学习增强物理预报框架，但进展多为渐进式，难以实现根本性突破。近年来，基础模型（如大型语言模型）的快速发展为太阳能预报领域带来了全新思路。然而，现有基于大语言模型的方法多为单模态，依赖于数值时间序列或文本，难以处理高维图像数据（如卫星图像）。为此，研究人员提出了一种名为VISIF（视觉集成太阳辐照度预测器）的新方法，通过利用预训练大型视觉-语言模型（LVLM）的固有对齐能力，弥合卫星图像与地面观测之间的模态鸿沟。该研究旨在探索LVLM在太阳能预报中的迁移潜力，验证其能否在有监督训练中学习特定的跨模态关联，从而避免传统深度模型因数据有限而难以融合多模态信息的问题。论文发表在《Atmospheric and Oceanic Science Letters》。

研究人员开展了系统的实验研究。他们基于预训练的InternVL2（一个包含ViT视觉编码器和decoder-only大语言模型的LVLM骨干）构建VISIF，并通过三个任务特定接口适配：一个修改的视觉嵌入层（将原始3通道RGB图像扩展为7通道多光谱卫星图像）、一个可学习的时间序列分词器（将历史全局水平辐照度分段映射到LVLM隐藏空间）以及一个预报解码器。研究使用BSRN（基线表面辐射网络）数据集，涵盖三个地理和气候多样性站点（Iza?a高海拔晴朗、Cener山谷过渡、Palaiseau城市大陆性），时间跨度为2008-2022年。主要关键技术方法包括：1）基于TV-L1算法的光学流外推模块（可选），用于显式编码云平流动态；2）参数高效训练策略，冻结大部分LVLM参数，仅训练修改的patch嵌入层、MLP投影器、时间序列编码器和解码器以及可学习时间戳缩放因子；3）采用Adam优化器，早停机制，以MAE为损失函数进行自回归预测。代码已开源以支持复现。

研究结果部分：

**4.1 训练设置与评估指标**：通过设定具体训练超参数（学习率5×10^-4、指数衰减、批次大小16、早停窗口15轮），并采用MAE、标准化MAE（nMAE）和预报技能（S）作为评估指标，为后续对比实验建立了定量基础。

**4.2 与基准对比**：通过将VISIF与单模态基线（智能持久性、DLinear、FiLM、PatchTST、AutoTimes）和多模态基线（CrossViViT）在三个站点上进行对比，发现VISIF（含或不含光学流）在所有站点均取得最低MAE和最高S值。其中，VISIF相对CrossViViT降低MAE超过21%（如Iza?a站MAE从29.40降至23.15 W m^-2），证实预训练LVLM的多模态融合能力优于从零训练的Transformer架构。

**4.3 规模分析**：通过使用不同参数规模的InternVL2骨干（1B、2B、4B、8B），研究人员发现最优模型规模取决于气象复杂度。在稳定晴朗的Iza?a站，紧凑的1B模型最优；在复杂度高的Palaiseau站，中型4B模型取得最佳表现。配对Diebold–Mariano检验证实这些差异统计显著，表明轻量模型在一般场景下为最优选择，而中规模骨干更适合高熵大气模式。

**4.4 光学流外推分析**：通过对比VISIF和其光学流增强版本VISIF+OF，研究人员发现光学流外推在具有强云平流动态的Cener和Palaiseau站可降低MAE（如Palaiseau站从39.39降至37.19 W m^-2），但在Iza?a站引入噪声。光学流误差随预报时长累积（240分钟时nMAE达0.0882），但TV-L1的CPU计算耗时约20.6秒/批次，是主要计算瓶颈，适合预计算场景。

**4.5 消融研究**：通过移除了卫星图像输入（VISIF w/o any imagery input），研究人员发现MAE在三个站点分别上升11.1%、7.9%和5.8%，证实视觉模态提供了时间序列自身无法获取的关键预测信号，尤其在长预报时程中有效减缓误差传播。

**4.6 任务特定模态接口的必要性**：通过引入DirectLVLM基线（直接将历史GHI以逗号分隔文本输入，保持相同视觉预处理但移除可学习时间接口），研究人员发现即使使用8B骨干，DirectLVLM在所有站点均得出负预报技能（如Iza?a站S=-0.008），而VISIF实现正技能（S=0.406）。这证明LVLM的原生图像-语言对齐不能直接迁移到卫星-GHI领域，任务特定的时间编码器和视觉适配接口是必要条件。

讨论与结论部分：论文在讨论部分并未单独成节，而是在结论中集中总结了研究发现。研究人员指出，VISIF通过利用预训练LVLM的语义对齐能力，成功融合卫星图像与地面观测，实现了跨地理站点的预报精度提升，相对CrossViViT降低MAE超过21%。视野模态不仅仅是补充，而是提供了时间序列缺失的信号，能有效减缓长时程误差传播。规模分析揭示了模型规模与气候复杂度之间的关联：轻量架构在稳定气候下有效，而中型模型能捕捉复杂大气动态的随机性。通过将模型容量与环境熵联系起来，该工作为针对区域气候部署高效、高精度预报系统提供了路线图。研究结论强调，VISIF证明了预训练LVLM在遥感时间序列任务中的迁移潜力，但原生多模态对齐无法直接应用，必须通过任务特定接口进行适配。

联系信箱：

粤ICP备09063491号

热点排行