GeoPix：一种多模态大型语言模型，用于遥感中的像素级图像理解

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Geoscience and Remote Sensing Magazine》：GeoPix: A multimodal large language model for pixel-level image understanding in remote sensing

【字体：大中小】 时间：2025年11月14日 来源：IEEE Geoscience and Remote Sensing Magazine 16.4

编辑推荐：

　　多模态大语言模型在遥感图像理解中实现像素级对话能力，提出GeoPix模型集成类可学习记忆模块CLM和自建GeoPixInstruct数据集，采用两阶段训练策略平衡生成与分割任务，实验验证其像素级分割效果优于现有方法并保持区域级性能优势。

摘要：

多模态（MM）大型语言模型（MLLMs）在图像和区域级别的遥感（RS）图像理解任务中取得了显著的成功，例如图像字幕生成（IC）、视觉问答（VQA）和视觉定位（Visual Grounding）。然而，现有的RS MLLMs缺乏像素级别的对话能力，即无法根据用户指令为特定实例生成分割掩码。在本文中，我们提出了GeoPix，这是一种将图像理解能力扩展到像素级别的RS MLLM。通过为MLLM配备一个掩码预测器来实现这一点，该预测器将视觉特征从视觉编码器转换为基于LLM的分割令牌嵌入的条件掩码。为了便于对RS图像中的多尺度对象进行分割，我们在掩码预测器中集成了一种类别可学习记忆（CLM）模块，以在整个数据集中捕获和存储每个实例的类别级地理上下文。此外，为了解决训练像素级别RS MLLMs所需的大规模数据集不足的问题，我们构建了GeoPixInstruct数据集，该数据集包含65,463张图像和140,412个实例，每个实例都标注了文本描述、边界框和掩码。我们还开发了一种两阶段训练策略，以平衡MM多任务优化中文本生成和掩码预测的不同需求。大量实验验证了GeoPix在像素级别分割任务中的有效性和优越性，同时在图像和区域级别基准测试中也保持了竞争力。模型、数据集和代码均可在以下链接公开获取：https://github.com/Norman-Ou/GeoPix。

联系信箱：

粤ICP备09063491号

摘要：

热点排行