
-
生物通官微
陪你抓住生命科技
跳动的脉搏
GeoPix:一种多模态大型语言模型,用于遥感中的像素级图像理解
《IEEE Geoscience and Remote Sensing Magazine》:GeoPix: A multimodal large language model for pixel-level image understanding in remote sensing
【字体: 大 中 小 】 时间:2025年11月14日 来源:IEEE Geoscience and Remote Sensing Magazine 16.4
编辑推荐:
多模态大语言模型在遥感图像理解中实现像素级对话能力,提出GeoPix模型集成类可学习记忆模块CLM和自建GeoPixInstruct数据集,采用两阶段训练策略平衡生成与分割任务,实验验证其像素级分割效果优于现有方法并保持区域级性能优势。
多模态(MM)大型语言模型(MLLMs)在图像和区域级别的遥感(RS)图像理解任务中取得了显著的成功,例如图像字幕生成(IC)、视觉问答(VQA)和视觉定位(Visual Grounding)。然而,现有的RS MLLMs缺乏像素级别的对话能力,即无法根据用户指令为特定实例生成分割掩码。在本文中,我们提出了GeoPix,这是一种将图像理解能力扩展到像素级别的RS MLLM。通过为MLLM配备一个掩码预测器来实现这一点,该预测器将视觉特征从视觉编码器转换为基于LLM的分割令牌嵌入的条件掩码。为了便于对RS图像中的多尺度对象进行分割,我们在掩码预测器中集成了一种类别可学习记忆(CLM)模块,以在整个数据集中捕获和存储每个实例的类别级地理上下文。此外,为了解决训练像素级别RS MLLMs所需的大规模数据集不足的问题,我们构建了GeoPixInstruct数据集,该数据集包含65,463张图像和140,412个实例,每个实例都标注了文本描述、边界框和掩码。我们还开发了一种两阶段训练策略,以平衡MM多任务优化中文本生成和掩码预测的不同需求。大量实验验证了GeoPix在像素级别分割任务中的有效性和优越性,同时在图像和区域级别基准测试中也保持了竞争力。模型、数据集和代码均可在以下链接公开获取:https://github.com/Norman-Ou/GeoPix。