遥感时空视觉-语言模型：一项全面的综述

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

遥感时空视觉-语言模型：一项全面的综述

《IEEE Geoscience and Remote Sensing Magazine》：Remote Sensing Spatiotemporal Vision–Language Models: A comprehensive survey

【字体：大中小】 时间：2025年11月24日 来源：IEEE Geoscience and Remote Sensing Magazine 16.4

编辑推荐：

　　遥感时空视觉-语言模型（RS-STVLMs）研究综述，系统梳理其从早期任务特定模型到融合大型语言模型的演进，分析变化检测、时空理解等任务的关键技术与评估体系，提出未来研究方向。

摘要：

多时相遥感图像的解释对于监测地球的动态过程至关重要。然而，以往的变化检测（CD）方法仅生成二值或语义掩码，无法提供易于人类理解的变化信息。最近在视觉-语言模型（VLMs）方面的进展开辟了新的方向，这些模型融合了视觉和语言信息，实现了时空视觉-语言理解：它们不仅能捕捉空间和时间上的依赖关系以识别变化，还能对时相图像进行更丰富的交互式语义分析（例如生成描述性文字说明和回答自然语言问题）。在这篇综述中，我们首次全面介绍了遥感时空VLMs（RS-STVLMs）。综述涵盖了从早期针对特定任务的模型到最近利用强大大规模语言模型（LLMs）的通用基础模型的发展历程。我们讨论了在变化文字生成、变化问答和变化关联等代表性任务中的进展。此外，我们系统地分析了这些模型的基本组成部分和关键技术，并回顾了推动该领域发展的数据集和评估指标。通过将任务层面的见解与对共享架构模式的深入探讨相结合，我们旨在阐明当前的成就，并为遥感时空视觉-语言理解的未来研究指明有前景的方向。相关工作的持续进展可关注：https://github.com/Chen-Yang-Liu/Awesome-RS-SpatioTemporal-VLMs。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号