
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于三重字典驱动学习与不确定性感知融合的遥感图像-文本跨模态检索方法研究
【字体: 大 中 小 】 时间:2025年06月09日 来源:Expert Systems with Applications 7.5
编辑推荐:
为解决遥感图像与文本跨模态检索中存在的特征异构表示和语义对齐难题,研究人员提出了一种新型TDUF(Triplet Dictionary-driven learning and Uncertainty-aware Fusion)框架。该研究通过区域邻接图嵌入(RAGE)构建结构特征表示,结合三重字典驱动学习(TDDL)增强模态内相似性,并利用不确定性感知融合(UAF)实现跨模态公平比较。实验表明,该方法在遥感基准测试中mR指标超越CLIP-based方法8.1%,显著提升了地理空间信息获取效率。
随着卫星技术的快速发展,遥感数据呈现爆炸式增长,如何高效检索海量数据中的关键信息成为重要课题。传统跨模态图像-文本检索方法通常依赖预训练的单模态模型独立提取特征,却忽视了图像和文本之间复杂的异构表示问题,导致在遥感场景中面临背景噪声干扰、多对象交互等挑战,难以建立稳健的跨模态语义关联。
针对这些瓶颈,中国的研究团队创新性地提出了TDUF框架,通过三重字典驱动学习和不确定性感知融合技术,实现了端到端的遥感跨模态检索模型高效训练。该研究发表在《Expert Systems with Applications》期刊,其核心突破在于:首先利用无监督超像素分割构建区域邻接图嵌入(RAGE)保留图像结构信息;随后通过双重优化的三重字典驱动学习(TDDL)构建稀疏度量空间;最后设计不确定性感知融合(UAF)模块,采用特征对齐器和特征印记实现跨模态公平比较。
关键技术方法包括:基于简单线性迭代聚类(SLIC)的无监督超像素分割、Pearson相关系数相似性度量、特征金字塔网络解码器设计,以及在RSITMD、RSICD和UCM三个遥感数据集上的交叉验证实验。
研究结果显示:
可视化分析表明,t-SNE投影显示该方法特征空间具有更紧凑的类内分布和更分散的类间距离。在港口场景检索案例中,该方法准确识别"不同类型尺寸的船舶"等细粒度特征,错误率较GeoRSCLIP降低32%。
该研究的核心价值在于:首次将字典学习与不确定性量化相结合应用于遥感跨模态检索,提出的TDUF框架在保持29.85s检索速度(RT)的同时,仅需33.2MB可训练参数(Params)。这不仅解决了异构模态间的语义鸿沟问题,更为灾害救援、生态评估等需要快速获取地理空间信息的应用场景提供了可靠的技术方案。未来研究可进一步探索动态环境下的模型自适应机制,以应对更复杂的遥感场景变化。
生物通微信公众号
知名企业招聘