利用ImageRAG提升超高分辨率遥感图像分析能力:一个新的框架

《IEEE Geoscience and Remote Sensing Magazine》:Enhancing Ultrahigh Resolution Remote Sensing Imagery Analysis With ImageRAG: A new framework

【字体: 时间:2025年11月28日 来源:IEEE Geoscience and Remote Sensing Magazine 16.4

编辑推荐:

  超高分辨率遥感影像(如10,000×10,000像素)因空间信息庞大和token限制,难以被现有视觉语言模型有效处理。本文提出ImageRAG框架,通过检索增强生成技术将分析任务转化为长上下文选择,设计双路径模式平衡效率与效果,使模型能精准聚焦关键区域信息进行高效推理。

  

摘要:

超高分辨率(UHR)遥感图像(RSI)(例如10,000 × 10,000像素)对当前的遥感视觉语言模型(RSVLMs)来说是一个重大挑战。如果将UHR图像调整为标准输入图像大小,就会忽略其中包含的大量空间和上下文信息。否则,这些图像的原始大小通常会超出标准RSVLMs的令牌限制,使得难以处理整个图像并捕捉基于丰富视觉上下文的远距离依赖关系来回答问题。在本文中,我们介绍了ImageRAG for RS,这是一个能够以较少的训练需求处理UHR RSI分析复杂性的框架。通过将UHR RS图像分析任务转换为图像长上下文选择任务,我们设计了一种基于检索增强生成(RAG)技术的创新图像上下文检索机制,称为ImageRAG。ImageRAG的核心创新在于其能够选择性地检索并关注与给定查询相关的UHR图像中最相关的部分作为视觉上下文。该框架提出了快速路径和慢速路径模式,以高效且有效地处理这一任务。ImageRAG使RSVLMs能够管理来自UHR RSI的大量上下文和空间信息,确保分析既准确又高效。代码将在https://github.com/om-ai-lab/ImageRAG上发布。

超高分辨率(UHR)遥感图像(RSI)(例如10,000 × 10,000像素)对当前的遥感视觉语言模型(RSVLMs)来说是一个重大挑战。如果将UHR图像调整为标准输入图像大小,就会忽略其中包含的大量空间和上下文信息。否则,这些图像的原始大小通常会超出标准RSVLMs的令牌限制,使得难以处理整个图像并捕捉基于丰富视觉上下文的远距离依赖关系来回答问题。在本文中,我们介绍了ImageRAG for RS,这是一个能够以较少的训练需求处理UHR RSI分析复杂性的框架。通过将UHR RS图像分析任务转换为图像长上下文选择任务,我们设计了一种基于检索增强生成(RAG)技术的创新图像上下文检索机制,称为ImageRAG。ImageRAG的核心创新在于其能够选择性地检索并关注与给定查询相关的UHR图像中最相关的部分作为视觉上下文。该框架提出了快速路径和慢速路径模式,以高效且有效地处理这一任务。ImageRAG使RSVLMs能够管理来自UHR RSI的大量上下文和空间信息,确保分析既准确又高效。代码将在https://github.com/om-ai-lab/ImageRAG上发布。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号