
-
生物通官微
陪你抓住生命科技
跳动的脉搏
一种用于地球观测的语义增强多模态遥感基础模型
《Nature Machine Intelligence》:A semantic-enhanced multi-modal remote sensing foundation model for Earth observation
【字体: 大 中 小 】 时间:2025年08月21日 来源:Nature Machine Intelligence 23.9
编辑推荐:
针对传统遥感模型单模态预训练和细调数据需求大的问题,提出SkySense++多模态基础模型,采用分阶段预训练策略,通过对比学习和掩码语义学习提升表征能力,减少标注数据依赖,在12个EO任务中表现优于SOTA模型,推动大规模应用。
在大量遥感数据上进行预训练的遥感基础模型在多种地球观测(EO)任务中展现了出色的性能。这些模型通常使用单模态时间数据进行预训练,而这对于多模态应用来说是不足的。此外,这些模型在下游任务中需要大量的样本进行微调,这在时间敏感的场景(如快速洪水制图)中带来了挑战。我们提出了SkySense++,这是一种适用于多种EO任务的多模态遥感基础模型。SkySense++采用了分解式架构,能够处理由不同传感器获取的多模态图像。我们采用渐进式预训练方法,该方法分为两个阶段,使用精心策划的包含2700万张多模态遥感图像的数据集进行训练。第一阶段通过多粒度对比学习获得通用表示;第二阶段利用掩码语义学习来学习语义丰富的表示,从而实现少样本学习能力。这种能力使模型能够在标注数据较少的情况下处理未见过的任务,减少了对大量标注数据的需求。在7个领域的12项EO任务中,SkySense++在分类、检测和分割方面均优于现有的最先进模型。这种泛化能力可能为大规模EO任务的遥感基础模型应用开辟新的篇章。