
-
生物通官微
陪你抓住生命科技
跳动的脉搏
RAGCap:一种无需微调即可实现风格感知的遥感图像字幕生成的增强检索方法
《International Journal of Remote Sensing》:RAGCap: retrieval-augmented generation for style-aware remote sensing image captioning without fine-tuning
【字体: 大 中 小 】 时间:2025年10月30日 来源:International Journal of Remote Sensing 2.6
编辑推荐:
通用视觉语言模型(VLM)在遥感图像配文任务中存在微调成本高且可能削弱泛化能力的问题。本文提出RAGCap框架,通过相似性检索选取训练数据中的相关图像-配文对,结合精心设计的提示结构引导预训练VLM生成符合训练数据风格的遥感配文,无需微调。实验表明其在四个遥感基准数据集上性能与传统微调方法相当。
近年来,通用视觉语言模型(VLMs)在各种任务中表现出极高的灵活性,使其在计算机视觉和自然语言处理领域变得不可或缺。它们广泛的预训练使得模型在许多领域都能取得出色的性能。当需要将这些模型适配到特定的下游任务(如遥感(RS)图像标注)时,传统的方法是进行微调。然而,微调通常计算成本较高,并且可能会因为过度针对有限的领域特定数据集而削弱模型本身的泛化能力。本文探讨了检索增强生成(RAG)作为一种替代策略,无需微调即可使通用VLMs适应RS图像标注任务。我们提出了RAGCap,这是一种基于检索的框架,它利用基于相似性的方法从训练数据集中选择相关的图像-标注对。这些示例随后与目标图像结合在一个精心设计的提示结构中,引导通用VLM生成与训练数据集风格一致的自定义RS标注。虽然我们的实现使用了SigLIP进行检索,并以Qwen2VL作为基础VLM,但所提出的框架具有通用性,也可应用于其他模型。在四个RS基准数据集上的广泛评估表明,RAGCap的性能与传统微调方法相当。我们的研究结果表明,像RAGCap这样的RAG方法为RS图像标注的领域适应提供了一种可扩展且实用的替代方案。代码可在以下链接获取:https://github.com/BigData-KSU/RAGCap。
生物通微信公众号
知名企业招聘