具有类不可知性和语义感知能力的融合网络,结合最优传输算法,用于弱监督下的目标定位

《Expert Systems with Applications》:Class-agnostic and semantic-aware fusing network with optimal transport for weakly supervised object localization

【字体: 时间:2025年11月24日 来源:Expert Systems with Applications 7.5

编辑推荐:

  弱监督目标定位中,我们提出基于最优传输的语义感知融合网络(CSFN),通过融合Transformer和CNN的优势解决局部激活、过平滑及语义歧义问题。设计类无关语义感知融合Transformer(CSFT)缓解分类与定位任务冲突,类无关语义引导定位损失优化语义提示生成的定位图,最优传输跨图协同模块利用同一类别图像的显式相似性传播激活区域,双分类器增强模块通过跨图多尺度聚合分类器提升分类精度。实验表明在CUB-200-2011和ILSVRC数据集上优于现有方法。

  弱监督对象定位(Weakly Supervised Object Localization, WSOL)是计算机视觉领域的一个重要研究方向,其目标是仅利用图像级别的标签(如类别名称)来定位图像中的对象。相比传统的全监督方法,WSOL具有显著的优势,即降低了标注成本,使模型能够在没有精确边界框的情况下完成对象识别和定位任务。随着人工智能技术的发展,尤其是在深度学习和大模型的推动下,WSOL的应用范围不断扩大,逐渐成为图像处理、目标检测、视频分析、医学图像识别等多个领域的研究热点。

目前,WSOL方法主要分为两大类:基于卷积神经网络(CNN)的方法和基于Transformer的方法。基于CNN的方法在图像处理中具有较强的局部感知能力,但其在处理全局信息时存在一定的局限性。CNN的归纳偏置(inductive bias)导致其在定位任务中容易丢失对象的整体信息,从而出现部分激活问题(partial activation problem)。也就是说,CNN在处理图像时,往往只能关注到对象的某些局部区域,而无法有效识别整个对象的位置。此外,由于CNN的卷积操作对局部特征具有较强的敏感性,因此在处理复杂背景、遮挡或模糊图像时,容易产生定位信息的不准确和不完整。

相比之下,基于Transformer的方法在处理全局信息方面具有优势,其自注意力机制能够捕捉长距离的特征依赖关系,从而生成较为完整的定位图。然而,Transformer的这种全局性也带来了一些问题,例如在处理局部细节时,其缺乏CNN那样的归纳偏置,导致定位图的空间一致性不足。此外,Transformer在处理单张图像时,容易因过度平滑(over-smoothing)现象而模糊对象的边缘细节。同时,由于Transformer主要关注单张图像,其在处理同一类别不同图像之间的对比信息时,也存在一定的局限性。这种对比信息对于提高定位精度和泛化能力具有重要意义,但在基于Transformer的WSOL方法中往往被忽视。

除了上述问题,语言可引导的定位方法(language prompt-able localization methods)还存在一个重要的挑战,即语义模糊性(semantic ambiguity)。这些方法通过将语言提示(如文本描述)输入模型,来生成与提示相关的定位图。然而,语言提示本身的模糊性可能导致模型在生成定位图时出现视觉混淆(visual localization confusion),尤其是在真实世界的应用场景中。例如,当输入的提示不够明确或存在歧义时,模型可能无法准确区分不同对象的位置,从而影响定位的准确性。

为了解决上述问题,本文提出了一种结合最优传输(optimal transport)机制的类无关(class-agnostic)且语义感知(semantic-aware)融合网络(Class-Agnostic and Semantic-Aware Fusing Network, CSFN),用于弱监督对象定位。该方法的核心思想是通过融合不同来源的定位信息,如基于视觉特征的类无关定位图和基于语言提示的语义感知定位图,来提高定位的准确性和鲁棒性。此外,通过引入最优传输机制,可以更有效地建立同一类别不同图像之间的密集对应关系,从而实现跨图像的激活区域传播,提高对象定位的完整性。

具体而言,本文提出了一种类无关且语义感知的融合Transformer(Class-Agnostic and Semantic-Aware Fusing Transformer, CSFT),用于解决分类与定位任务之间的优化冲突。CSFT通过将基于视觉特征的类无关定位图与基于语言提示的语义感知定位图进行融合,实现了对对象位置的更精确识别。同时,为了缓解语义感知定位图可能带来的视觉混淆问题,本文还提出了一种类无关引导的语义感知定位损失(Class-Agnostic Guided Semantic-Aware Localization Loss),通过优化这一损失函数,使得模型在生成定位图时能够更好地结合语言提示的信息,从而减少视觉混淆。

此外,本文还引入了一种最优传输协同定位(Optimal Transport Co-localization, OTC)模块,该模块通过建模同一类别不同图像之间的密集对应关系,实现了跨图像的激活区域传播。OTC模块能够利用同一类别图像之间的外观、颜色等内在相似性,从而在不同图像之间建立有效的对应关系,提高对象定位的准确性。最后,为了进一步提升分类性能,本文提出了一种双分类器增强定位(Dual Classifier Enhanced Localization, DCEL)模块,该模块由跨图像多尺度聚合分类器(Cross-Image Multi-Scale Aggregation Classifier, CMAC)和分类头(classification head)组成,通过多尺度的信息聚合和分类头的优化,提高了分类的准确性。

本文的方法在多个标准数据集上进行了验证,包括CUB-200-2011和ILSVRC。CUB-200-2011是一个细粒度的鸟类数据集,包含200个不同的鸟类种类,共5,994张训练图像和5,794张测试图像。ILSVRC是一个大规模的视觉识别数据集,包含1,000个类别,共1,281,197张训练图像和50,000张验证图像。实验结果表明,本文提出的CSFN方法在这些数据集上均取得了优于现有最先进的WSOL方法的性能。这表明,CSFN方法在处理弱监督对象定位任务时,具有较强的泛化能力和准确性。

本文的贡献主要体现在三个方面。首先,提出了一种类无关且语义感知的融合Transformer(CSFT),用于解决分类与定位任务之间的优化冲突。CSFT通过融合不同来源的定位信息,提高了定位的准确性和鲁棒性。其次,引入了一种类无关引导的语义感知定位损失(Class-Agnostic Guided Semantic-Aware Localization Loss),用于缓解语义感知定位图可能带来的视觉混淆问题。最后,提出了一种最优传输协同定位(OTC)模块和双分类器增强定位(DCEL)模块,通过跨图像的信息传播和多尺度的分类聚合,进一步提高了分类和定位的性能。

在实际应用中,弱监督对象定位方法可以广泛应用于多个领域,如视频监控、人脸识别、自动驾驶和医学图像分析。例如,在视频监控中,弱监督对象定位方法可以用于检测视频中的目标对象,而无需精确的边界框标注。在人脸识别中,该方法可以用于定位人脸区域,从而提高人脸识别的准确性。在自动驾驶中,弱监督对象定位方法可以用于检测道路上的车辆、行人等目标对象,从而提高自动驾驶的安全性。在医学图像分析中,该方法可以用于定位病灶区域,从而提高疾病诊断的准确性。

尽管弱监督对象定位方法在多个领域展现出巨大的应用潜力,但其在实际应用中仍然面临一些挑战。例如,如何在不使用精确标注的情况下,提高定位的准确性;如何在处理复杂背景、遮挡和模糊图像时,减少定位信息的不准确;如何在处理同一类别不同图像之间的对比信息时,提高定位的泛化能力。此外,如何在处理语言提示时,减少语义模糊性带来的视觉混淆问题,也是当前研究的一个重要方向。

为了应对这些挑战,本文提出了一种新的方法,即结合最优传输机制的类无关且语义感知融合网络(CSFN)。该方法通过融合不同来源的定位信息,如基于视觉特征的类无关定位图和基于语言提示的语义感知定位图,提高了定位的准确性和鲁棒性。同时,通过引入最优传输机制,建立了同一类别不同图像之间的密集对应关系,实现了跨图像的激活区域传播,提高了对象定位的完整性。此外,通过双分类器增强定位模块(DCEL),提高了分类的准确性,从而进一步提升了整体的性能。

本文的方法在实际应用中具有较强的泛化能力和准确性。例如,在处理图像级别的标签时,CSFN能够更准确地定位对象的位置,而无需精确的边界框标注。在处理复杂背景和遮挡时,CSFN能够通过跨图像的激活区域传播,减少定位信息的不准确。在处理语言提示时,CSFN能够通过类无关引导的语义感知定位损失,减少语义模糊性带来的视觉混淆问题。这些优势使得CSFN在多个应用场景中具有广泛的应用前景。

综上所述,本文提出的CSFN方法在弱监督对象定位任务中具有显著的优势。通过融合不同来源的定位信息,解决分类与定位任务之间的优化冲突,建立跨图像的激活区域传播机制,以及引入双分类器增强定位模块,CSFN方法在多个标准数据集上均取得了优于现有方法的性能。这些成果不仅推动了弱监督对象定位技术的发展,也为相关领域的应用提供了新的思路和方法。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号