RISE:基于语义引导的区分性学习方法,用于无监督的跨模态哈希处理(Semantics-Guided Discriminative and Robust Learning for Unsupervised Cross-Modal Hashing)
《Knowledge-Based Systems》:RISE: Semantics-Guided Discriminative and Robust Learning for Unsupervised Cross-Modal Hashing
【字体:
大
中
小
】
时间:2026年01月02日
来源:Knowledge-Based Systems 7.6
编辑推荐:
无监督跨模态哈希学习面临语义鸿沟与监督缺失问题,本文提出RISE框架,通过软符号哈希编码生成统一二进制表示,利用语义聚类与自适应鲁棒原型学习机制,结合模态不变语义构建伪监督信号,有效缓解聚类语义漂移与伪标签噪声,在四个基准数据集上达到SOTA性能。
王瑞|黄海晓|冯杨林|彭德忠|胡鹏|李永祥
四川大学计算机科学学院,成都,610065,中国
摘要
无监督跨模态哈希(UCMH)解决了高效多模态检索的关键需求,但面临根本性挑战:不同模态之间的语义差距以及缺乏监督信号。为了克服这些限制,我们提出了一个强大的无监督跨模态哈希框架(RISE),该框架利用不变语义作为伪监督来进行无监督跨模态学习。我们的方法包括:(1)具有软符号哈希(SSH)层的模态特定编码器,用于生成统一的二进制表示;(2)语义聚类判别学习(SCDL)模块,通过对齐跨模态语义来构建伪原型,同时减轻簇内漂移和簇间歧义;(3)自适应鲁棒原型监督学习(ARPL)模块,动态平衡判别学习和对不可靠伪标签的容忍度。在四个基准数据集(MIRFLICKR-25K、IAPR TC-12、NUS-WIDE和MS-COCO)上的广泛实验表明,RISE取得了最先进的性能,显著优于现有的UCMH方法。消融研究验证了SCDL和ARPL在解决语义结构学习和伪标签噪声方面的互补作用。
引言
近年来,随着多模态数据(如图像、文本、音频和视频)在现实世界应用中的指数级增长,例如多媒体搜索引擎、医疗分析和电子商务,跨模态检索作为一种从不同模态中快速检索相关信息的技术受到了广泛关注,例如通过文本搜索图像/视频、将相关文本与音频匹配以及找到与图像相似的视频[1]、[2]、[3]、[4]、[5]、[6]。核心目标是打破不同模态数据之间的语义差距,并实现跨模态样本的有效对齐。然而,多模态数据的固有异质性和大规模检索的计算需求带来了重大挑战。为了解决这些问题,跨模态哈希(CMH)[7]、[8]、[9]、[10]、[11]因能够将高维数据编码为相同的汉明空间中的紧凑二进制哈希码而受到重视,从而实现了低存储和高效率的解决方案。
现有的CMH方法根据监督水平大致分为三类:完全监督[12]、半监督[13]、[14]和无监督方法[8]、[15]、[16]。完全监督方法依赖于大量的标记数据(如类别级注释)来通过最大化语义一致性来学习判别性哈希码。尽管这些方法通常能取得显著的性能,但它们对大规模标记数据的依赖性限制了在标记成本高昂或不可行的场景中的实用性。半监督方法通过利用有限的标记数据和丰富的未标记数据来达到平衡,通常通过伪标记或基于图的传播等技术实现。虽然半监督方法更具可扩展性,但其性能瓶颈仍然受到有限监督信息的限制。相比之下,无监督方法在不使用任何标记数据的情况下,利用内在数据结构(如特征相关性或聚类性)来生成哈希码,这在实际应用中具有广泛的适用性。在这项工作中,我们专注于最具挑战性的无监督跨模态哈希(UCMH),即在没有明确语义监督的情况下进行模态对齐。
为了实现UCMH,[16]提出了一种无监督生成对抗跨模态哈希(UGACH)方法,该方法利用生成对抗网络(GAN)的能力来学习跨模态数据的潜在流形结构,并采用最大边际排名损失。 [17]利用外部和内部循环网络通过无监督耦合循环生成对抗哈希(UCH)方法来学习统一的和具有判别性的二进制表示。[8]探索了用于无监督跨模态哈希的对比学习,通过动量优化器和跨模态排名学习损失来处理模型异质性并缓解无监督学习中的假阴性问题。从方法论的角度来看,这些无监督方法主要分为两类:基于GAN的分布对齐和实例级对比学习。基于GAN的方法旨在通过学习共享的潜在流形来减少跨模态分布差异,但它们通常缺乏明确的语义约束来在学习的汉明空间中强制判别结构。相比之下,对比学习专注于跨模态的实例级判别,这对于噪声较大的正负对敏感,并且在缺乏注释的情况下可能难以捕捉更高层次的语义一致性。然而,这些方法没有充分考虑潜在的伪注释信息来缓解监督信息的稀缺性。此外,随着多模态数据的快速增长和大型预训练模型的出现,UCMH出现了新的挑战:模态之间的交叉表示漂移、分布异质性的增加以及在汉明空间中离散优化紧凑哈希码的难度。这些因素进一步激发了对鲁棒伪监督机制的需求,以便在大规模、噪声较大和异质数据条件下提供稳定的指导。受到半监督学习和噪声标签学习的启发,我们提出探索数据中的不变语义,并利用它们作为伪信号来指导训练。与提供隐式和局部监督的对比或对抗目标不同,基于不变语义的伪监督利用同一数据实例共享的模态一致的语义模式。这种不变语义提供了更稳定和全局的监督形式,特别符合UCMH的目标,即在共同的汉明空间中学习语义上有意义且紧凑的二进制代码。一方面,我们可以利用同一数据实例不同模态之间不变语义的一致性来生成可靠的伪原型。另一方面,我们可以专注于设计抗噪声的学习机制,以有效利用这些潜在的噪声伪信号,同时减轻负面影响,从而实现端到端的鲁棒无监督哈希学习。
为此,我们提出了一个强大的无监督跨模态哈希框架RISE,以实现可靠的UCMH。首先,RISE利用模态特定的骨干网络提取不同模态的特征,然后通过可微分的软符号哈希(SSH)层将特征编码到汉明空间。其次,为了在没有明确类别语义指导的情况下实现UCMH,RISE利用两个核心模块来实现伪信号构建和鲁棒跨模态学习,即语义聚类判别学习(SCDL)模块和自适应鲁棒原型监督学习(ARPL)模块。更具体地说,SCDL旨在聚类语义原型,以学习模态不变的和具有判别性的汉明空间,从而解决由模糊语义结构引起的挑战(簇内语义漂移和模糊的簇间边界)。一旦获得了一组语义原型,它们就作为汉明空间中潜在语义类别的抽象表示。然而,无监督聚类很容易为语义原型引入噪声信号。为了解决这个问题,ARPL通过平衡判别性和鲁棒性来学习可靠的二进制表示。最后,我们在四个广泛使用的跨模态基准数据集上验证了我们的RISE,并展示了我们方法的优势。我们的创新和贡献如下:
•在这项工作中,我们研究了一个具有挑战性的问题,即无监督跨模态哈希。更具体地说,我们提出了一个名为RISE的强大学习框架,通过伪原型构建和鲁棒跨模态学习来实现UCMH。
•提出了一个语义聚类判别学习(SCDL)模块,用于在聚类语义原型时解决簇内语义漂移和模糊的簇间边界问题。
•提出了一个自适应鲁棒原型监督学习(ARPL)模块,通过平衡判别性和鲁棒性来解决噪声/不可靠的判别问题。
•在四个数据集上进行了全面的实验,以验证我们方法在UCMH上的有效性,并提供了丰富的消融和可视化实验以提供额外的见解。
部分片段
无监督跨模态哈希
无监督跨模态哈希(UCMH)在不依赖类别标签的情况下,仅利用多模态数据对的共现关系,学习准确的紧凑二进制代码表示,以实现跨模态检索。
概述
为了清晰地展示,我们首先提供一些与无监督跨模态哈希(UCMH)任务相关的定义。具体来说,在本文中,粗体大写字母表示矩阵,而粗体小写字母表示向量。考虑一个多模态数据集,包含个图像-文本对。这里,表示第个样本的图像特征向量,表示其对应的文本特征。di和dt表示两个
数据集和评估协议
为了证明所提出的RISE方法的有效性,我们在四个广泛使用的多模态数据集上进行了广泛的实验:MIRFLICKR-25K [40]、IAPR TC-12 [41]、NUS-WIDE [42] 和 MS-COCO [43]。
结论
在这项工作中,我们提出了RISE,这是一个利用模态不变语义作为伪监督的强大无监督跨模态哈希框架。通过整合语义聚类判别学习(SCDL)和自适应鲁棒原型监督学习(ARPL),RISE有效地解决了语义模糊性和伪标签噪声的挑战。更具体地说,SCDL通过学习具有判别性的、模态不变的原型来增强跨模态对齐,而ARPL则自适应地
CRediT作者贡献声明
王瑞:撰写——原始草稿、可视化、软件、方法论、调查、形式分析、数据管理、概念化。黄海晓:撰写——审阅与编辑、监督、资源获取。冯杨林:方法论、数据管理。彭德忠:资源、资金获取。胡鹏:资源、资金获取。李永祥:软件、方法论。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了国家自然科学基金(62372315)和四川省科技计划项目(2024NSFTD0049、2024ZDZX0004、2024YFHZ0089、2024YFHZ0144)以及成都市科技项目(授权号2023-XT00-00004-GX)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号