基于协作特征对齐和全局-局部融合的细粒度草图图像检索方法

【字体: 时间:2025年11月08日 来源:Pattern Recognition Letters 3.3

编辑推荐:

  细粒度素描图像检索中提出协同特征对齐框架,包含细粒度mask提取、双级归一化特征融合、风格与结构分离增强模块,通过通道注意力mask聚焦细节,双级自适应归一化融合解决模态差异,特征分离与跨模态风格校准提升检索精度,实验在QMUL数据集上验证优于SOTA方法。

  
张轩|赵明|马立祥
上海海事大学信息工程系,中国上海 201306

摘要

对细粒度基于草图的图像检索的需求正在快速增长。然而,它面临着两个主要挑战:捕捉细粒度细节的难度以及不同模态之间的巨大领域差异。为了解决这些挑战,我们提出了一个新颖的框架:基于全局-局部融合网络的协作特征对齐框架,该框架包括细粒度掩码特征提取模块、全局-局部自适应归一化特征融合模块、特征补全和增强模块以及协作特征对齐策略。具体来说,我们引入了基于通道注意力的掩码来引导网络关注细节区域,以捕捉细粒度信息。然后,采用双层自适应归一化融合机制在全局和局部层面对齐风格差异,从而实现更一致的表示。特征被分解为与风格相关的表示和与结构相关的表示,并通过跨模态补充风格相关信息来增强特征的表现力。此外,引入了对齐损失,以便在推理过程中高效地进行检索,同时避免额外的对齐操作。在QMUL-ShoeV2和QMUL-ChairV2数据集上进行了广泛的实验,验证了所提出方法的有效性。

引言

自由手绘草图由少数简单的线条组成,能够有效地传达复杂的人体概念和结构细节。随着触摸屏设备的广泛使用,基于草图的图像检索(SBIR)[1]、[2]、[3]变得越来越实用。最近,SBIR发展到了细粒度基于草图的图像检索(FG-SBIR)[4]、[5],后者强调保留和利用草图中的细粒度细节,以实现实例级别的图像检索[6]、[7]。
FG-SBIR的目标是检索与输入草图最匹配的照片。草图和照片之间的巨大领域差异是一个关键挑战。草图是抽象的,由简单的线条组成,而照片则由密集的彩色像素组成。同时,细粒度检索依赖于详细信息,因为目标照片往往仅基于微妙的局部线索与其他照片不同。因此,FG-SBIR的另一个挑战是如何从图像中提取可靠的细粒度特征以支持准确的实例级别匹配。
先前的工作[7]、[8]、[9]制定了跨模态度量学习目标,将这些草图-照片对嵌入到一个共享的特征空间中。这些方法旨在最小化匹配对之间的距离,同时最大化不匹配对之间的距离。然而,这样的方法主要捕捉了模态共有的信息,可能会忽略对细粒度检索至关重要的模态特定特征。生成对抗网络(GANs)被用来不对称地分离特征并构建一个对称的嵌入空间[10]。然而,基于GAN的网络通常会导致训练不稳定和模型复杂性增加。
本文提出了一种基于全局-局部融合网络的新型协作特征对齐方法。为了增强细粒度特征的表现力,引入了基于通道注意力的掩码来遮挡图像中最显著的区域,引导网络的注意力集中在详细信息上。在全局和局部层面进行双层自适应归一化特征融合,将一种模态的特征与另一种模态的特征自适应地整合在一起,生成经过分布调整的特征。这弥合了草图和照片之间的巨大领域差异。从两种模态提取的特征在经过分布调整的特征的帮助下被分解为与风格相关的表示和与结构相关的表示。随后,将一种模态的风格相关信息整合到另一种模态的内容表示中。最后,在训练过程中引入了对齐损失,促进草图和照片特征映射到一个一致的表示空间中。通过避免计算成本高昂的融合和增强策略,所提出的方法显著提高了特征对齐效率,同时保持了高准确性。
我们的主要贡献总结如下:
• 提出了一种细粒度掩码特征提取(FG-MBFE)模块,引导网络关注详细和有区分度的区域,提高了细粒度特征表示的可靠性。
• 全局-局部自适应归一化特征融合模块(GLANFF)联合执行全局和局部自适应归一化,有效缓解了草图和照片之间的领域差异。
• 使用特征补全和增强模块(FCA)来分离与结构相关的表示和与风格相关的表示,并进行跨模态风格校准,增强了模态不变的表示。
• 引入了协作特征对齐(CFA)策略,在训练期间学习模态之间的映射,并在推理过程中实现高效检索,而无需大量的计算开销。
为了全面评估所提出的方法,在两个公开可用的细粒度草图-照片数据集QMUL-ShoeV2和QMUL-ChairV2上进行了广泛的实验。实验结果表明,所提出的CFAGLF方法优于现有的最先进方法,从而验证了该架构的有效性。

相关工作

相关工作

图像检索有广泛的应用,包括零样本图像检索[11]、[12]、遥感图像检索[13]、基于文本的图像检索[14]、[15]等。本工作专注于细粒度基于草图的图像检索。在早期的SBIR方法中,依赖于传统的手工制作的描述符,如方向梯度直方图(HOG)[16]和边缘局部方向直方图(ELDH)[17],通常结合三元组或对比损失进行优化。然而,这些

方法

本节提供了所提出的基于全局-局部融合网络的协作特征对齐的详细描述,包括细粒度掩码特征提取模块、全局-局部自适应归一化特征融合模块、特征补全和增强模块以及协作特征对齐策略,如图1所示。

实验设置

数据集和评估指标。我们的方法在两个公共数据集QMUL-ShoeV2和QMUL-ChairV2上进行评估。这些数据集被广泛用作FG-SBIR的基准数据集,包含成对的草图-照片样本。QMUL-ShoeV2包含6730张鞋子草图及其对应的2000张鞋子照片,而QMUL-ChairV2包含1275张椅子草图及其对应的400张椅子照片。每张照片至少与三张草图相关联。Yu等人[22]提供了关于该数据集的详细信息

结论

本文提出了一种细粒度基于草图的图像检索框架,该框架集成了一种细粒度掩码特征提取模块来指导网络提取可靠的细粒度特征。此外,还引入了全局-局部自适应归一化特征融合模块和特征补全和增强模块,有效缓解了草图和照片之间的领域差异。为了进一步提高推理效率同时保持准确性,还引入了协作

CRediT作者贡献声明

张轩:撰写——原始草稿,方法论。赵明:撰写——审阅与编辑,资金获取。马立祥:撰写——审阅与编辑。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本研究部分得到了国家自然科学基金(项目编号:62271302、62101316)和上海市自然科学基金(项目编号:20ZR1423500)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号