LMFENet:一种结合局部-全局特征与多尺度特征提取的网络,用于利用Sentinel-1影像进行石油泄漏类型分类

《Expert Systems with Applications》:LMFENet: A Hybrid Local-Global and Multi-Scale Feature Extraction Network for Oil Spill Type Classification Using Sentinel-1 Imagery

【字体: 时间:2025年11月08日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对零样本学习中的状态-对象组合识别问题,提出TeSAL方法通过文本-视觉融合模块、语义自适应标注模块和选择性剪枝模块解决背景干扰、关系处理不足及搜索空间爆炸问题,实验表明其性能优于现有方法并达到SOTA。

  Compositional Zero-shot Learning (CZSL) 是一种旨在模拟人类认知能力,通过从已知的组合中泛化,来识别新的状态-对象组合的学习方法。在实际应用中,传统的机器学习通常依赖于大量高质量的手动标注数据来保证分类性能,然而在现实世界中,为所有类别收集大量训练数据既耗时又昂贵。此外,由于视觉实体存在长尾分布的特性,某些特定类别可能根本无法获得足够的训练样本。为了解决这些问题,一些研究者提出了零样本学习(ZSL)方法,通过将已知类别的知识迁移到未知类别,但ZSL仅关注单一对象类别。相比之下,CZSL 是一种更具挑战性的版本,它尝试识别那些从未见过的状态-对象组合。

在 CZSL 的学习过程中,识别状态-对象组合需要对状态和对象本身具有先验知识。然而,自然图像中状态和对象往往紧密交织在一起,难以分离。因此,为了更好地进行组合学习,有必要从视觉概念中解耦出独立的状态特征和对象特征。当前的方法通常依赖于预训练的视觉-语言模型来提取对齐的视觉和文本表示,旨在找到最优匹配来进行识别。例如,CLIP 是一个著名的模型,它通过将视觉和文本特征对齐来实现跨模态识别。此外,一些方法明确地解耦状态和对象特征,使它们能够在独立的语义空间中被识别,同时也可以在组合空间中进行联合识别。

尽管一些方法已经验证了识别新状态-对象组合的可能性,但在实际应用中仍然存在三个关键问题。首先,由于语义文本只提供组合标签(例如,“huge” + “building”),而图像包含更丰富的信息(例如,“blue sky”),预训练模型提取的视觉特征可能包含意想不到的背景信息,这对特征学习是有害的。其次,大多数特征解耦方法在处理状态和对象时,采用相同的标准,例如使用 softmax 来统一分离它们。然而,某些状态之间可能存在关系,例如,“huge building” 和 “big house” 之间的关系,如果将它们与 “green apple” 和 “big house” 一样处理,可能会阻碍模型达到更好的平衡状态。最后,在一些大规模的开放世界数据集中,由于原始数据包含大量语义状态和对象,它们的全部组合会导致搜索空间急剧膨胀。例如,在 C-GQA 数据集中,有 453 个状态和 870 个对象,因此它们的组合可以达到 394,110 种。

为了解决上述问题,我们提出了一种新的方法,称为 Text-vision Fusion and Semantic Adaptive Labeling (TeSAL)。具体来说,为了增强视觉特征中的目标信息,我们设计了一个 Text-vision Fusion Module (TFM),该模块使用语义空间中的所有文本特征来指导视觉特征学习,从而使得视觉特征聚焦于目标对象。尽管所有文本特征都被使用,但只有匹配的文本特征才能真正增强视觉特征,而错误的文本会导致不良的特征,如图 1(b) 所示。此外,为了进一步增强传统固定提示中的语义区分能力,并减少状态和对象特征之间的混淆,我们还设计了一个 Learnable Prompt Module (LPM),该模块通过“可学习前缀 + 原始词汇 + 大型语言模型生成后缀”的结构增强文本特征,引导文本编码器保持状态和对象的语义独立性。

为了克服传统损失函数的局限性,这些损失函数未能考虑概念组合中的语义关系,从而阻碍了模型对未知组合的泛化能力。因此,我们引入了一个 Semantic Adaptive Labeling Module (SALM)。该模块根据文本实体(包括状态、对象和组合)之间的量化语义关系动态调整训练损失权重。这种方法增强了模型的语义感知能力,避免了对语义相似预测的过度惩罚,并增加了对显著偏离预测的惩罚力度。因此,它提高了模型对未知状态-对象组合的泛化能力。

最后,为了应对开放世界场景中状态-对象组合空间呈指数增长的挑战,我们设计了一个 Selective Pruning Module (SPM),用于筛选和重新组合预测置信度高的状态和对象原型。该模块的核心逻辑是根据模型对状态和对象原型的预测准确性动态选择高置信度的原型,并仅将这些高置信度的原型重新组合,形成一个精简的候选组合空间。通过排除预测置信度低的原型,SPM 可以显著减少模型在推理阶段需要搜索的候选组合数量,从而优化模型的推理效率。

综上所述,本文的主要贡献可以总结如下:首先,我们提出了一种 Text-vision Fusion Module (TFM),该模块通过文本特征指导视觉特征学习,使得视觉特征能够聚焦于目标对象,保留状态和对象的关键特征,有效抑制无关背景噪声的干扰,并显著提升文本与图像之间的跨模态特征对齐能力。其次,我们提出了一种 Semantic Adaptive Labeling Module (SALM),该模块结合了标签平滑技术,能够准确区分相似或不相似的状态和对象。它根据文本实体之间的量化语义关系动态调整训练损失权重,从而显著提升模型在概念组合中的语义感知能力。第三,针对开放世界场景中状态-对象组合空间的指数增长问题,我们提出了一种 Selective Pruning Module (SPM),该模块筛选并重新组合预测置信度高的状态和对象原型,构建了一个精简的候选组合空间,显著减少了状态-对象组合带来的搜索空间压力,并优化了模型的推理效率。最后,我们在两种场景下对三个主流数据集进行了实验,结果表明 TeSAL 方法在性能上优于现有方法,达到了最先进的水平,充分验证了其卓越的性能和泛化能力。

在实际应用中,CZSL 的挑战主要体现在三个方面。首先,视觉特征往往包含大量背景信息,这会干扰模型对目标对象的识别。因此,如何有效地提取与目标对象相关的特征,同时去除无关的背景信息,是 CZSL 的一个关键问题。其次,状态和对象之间可能存在复杂的语义关系,例如,某些状态可能与特定的对象具有更强的关联性。传统的处理方法往往忽略这种关系,而是采用统一的标准来处理状态和对象,这可能导致模型在识别过程中无法达到最佳的平衡状态。因此,如何在模型训练中充分考虑状态和对象之间的语义关系,是另一个重要问题。第三,当数据集规模较大时,状态和对象的组合数量会迅速增长,导致搜索空间变得庞大,从而影响模型的推理效率。因此,如何在不牺牲模型性能的前提下,优化搜索空间,是 CZSL 面临的第三个关键挑战。

为了解决这些问题,TeSAL 方法采用了多模块协同工作的策略。首先,TFM 模块通过文本特征对视觉特征进行指导,使得视觉特征能够更加聚焦于目标对象,而不是泛泛地覆盖整个图像内容。这种方法不仅提升了特征提取的准确性,还减少了背景信息对模型的干扰。其次,LPM 模块通过可学习的提示结构,增强了文本特征的表达能力,使得状态和对象的语义能够更加清晰地被区分。这种方法避免了传统固定提示带来的混淆问题,提升了模型在语义空间中的表现。第三,SALM 模块通过动态调整训练损失权重,使得模型能够更好地感知状态和对象之间的语义关系,从而在识别未知组合时取得更好的泛化效果。最后,SPM 模块通过筛选和重新组合高置信度的原型,显著减少了模型在推理阶段需要搜索的候选组合数量,从而优化了推理效率。

在实验部分,我们对三个主流数据集进行了评估,包括 UT-Zappos50K、MIT-States 和 C-GQA。UT-Zappos50K 是一个小型的鞋类数据集,包含多种材料和类型的精细分类,如皮革、帆布、运动鞋和靴子等。该数据集由 50,025 张图像组成,标注了 116 种组合,涉及 16 个状态和 12 个对象。MIT-States 数据集由从 UT-Zappos 网站收集的 53,753 张图像组成,其中包含丰富的状态和对象信息。C-GQA 数据集则是一个大型的问答数据集,其中包含 453 个状态和 870 个对象,因此它们的组合数量高达 394,110 种。在这些数据集上,TeSAL 方法的表现显著优于现有方法,达到了最先进的水平,验证了其在识别未知状态-对象组合方面的强大能力。

此外,我们还进行了消融实验,以验证每个模块对模型性能的贡献。实验结果表明,TFM 模块在提升视觉特征对齐能力方面起到了关键作用,而 LPM 模块则在减少状态和对象之间的混淆方面表现出色。SALM 模块在提升模型对未知组合的泛化能力方面也具有显著效果,而 SPM 模块则在优化推理效率方面表现突出。这些实验结果充分说明了 TeSAL 方法的有效性,并为未来的研究提供了有价值的参考。

总的来说,TeSAL 方法通过引入多个创新模块,解决了 CZSL 中的三个关键问题:视觉特征中的背景噪声、状态和对象之间的语义关系忽略以及搜索空间的爆炸问题。该方法不仅提升了模型的识别能力,还优化了推理效率,使得模型在大规模数据集和开放世界场景下能够更好地工作。此外,TeSAL 方法在实际应用中的表现验证了其在识别未知状态-对象组合方面的潜力,为未来的研究提供了新的思路和方法。通过这些贡献,我们相信 TeSAL 方法能够在 CZSL 领域发挥重要作用,并为相关研究提供有力支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号