《Displays》:Run as one: CLIP-based semantic fusion hashing for multi-modal retrieval
编辑推荐:
针对现有多模态哈希方法在特征表示和跨模态语义对齐上的不足,提出基于CLIP的语义融合多模态哈希框架(CSFMH)。通过预训练CLIP模型提取丰富的视觉和文本特征,设计多模态语义融合模块和哈希学习模块,将异构模态映射到统一嵌入空间,生成鲁棒紧凑的语义表示。实验表明,在MIR Flickr、NUS-WIDE和MS COCO数据集上,CSFMH的mAP平均提升5.7%,显著优于现有方法。
赵艳普|龚发明|杜成泽|纪晓峰|李东旭|严星|徐俊杰
中国石油大学(东营)计算机科学与技术学院,中国青岛市长江路街道266580
摘要
多模态哈希技术因能够融合来自多个来源的数据以进行复合检索,同时有效提高检索和存储效率,而受到了多媒体社区的广泛关注。然而,现有的大多数方法不仅难以进一步深化原始图像-文本对信息中的潜在表示,而且在弥合异构模态之间的语义差距方面也面临挑战。为了解决这些问题,我们提出了基于CLIP的语义融合多模态哈希(CSFMH)框架。具体来说,我们使用对比语言-图像预训练(CLIP)模型来处理原始图像-文本对,以提取更丰富的视觉和文本特征。此外,我们还提出了一个多模态语义融合模块和一个多模态哈希学习模块,这些模块利用对比学习将异构特征映射到一个统一的嵌入空间中,从而获得鲁棒且紧凑的语义表示。据我们所知,这是首次尝试将CLIP集成到多模态哈希中。在三个基准数据集(MIR Flickr、NUS-WIDE和MS COCO)上的广泛实验表明,CSFMH在多模态检索任务中的平均精度(mAP)上始终优于最先进的方法,最高提升了5.7%。
引言
随着信息技术的快速发展,多媒体数据正在爆炸性增长,涵盖了文本、图像、音频和视频等多种丰富的模态。在庞大的异构数据环境中,如何快速准确地从不同模态信息中检索出语义相关的数据已成为学术界和工业界共同关注的关键问题[1]、[2]。
哈希技术[3]、[4]、[5]作为一种将高维数据映射到二进制汉明空间的技术,由于能够通过计算哈希码之间的汉明距离来快速测量实例之间的相似性,因此在数据检索领域受到了广泛关注[6]。它在内存消耗和计算效率方面具有显著优势,为解决多媒体数据检索问题提供了有希望的方向[7]。
跨模态哈希[8]、[9]、[10]和多模态哈希[11]、[12]、[13]是目前研究的热点方向。跨模态哈希(CMH)专注于学习不同模态共享的哈希码,以实现跨模态检索任务,例如用文本查询图像或反之亦然,
而多模态哈希(MMH),如图1所示,进一步考虑在训练和检索阶段利用多种模态特征的互补性来生成融合哈希码,以应对更复杂的复合多模态检索需求,例如结合图像、文本和音频特征进行综合检索[14]。此外,多模态融合检索的实际意义还扩展到了专门的工业监控场景中。例如,在智能油田管理中,识别复杂的设备故障通常需要多个数据源。视觉泄漏可能被遮挡,而压力报警日志可能不明确。通过将实时监控图像与同时的传感器日志融合,操作员可以执行精确的复合检索,找到类似的历史异常事件。这种多模态协同作用比单独依赖任何一种模态都能提供更准确的风险评估。
在之前的研究中,已经提出了许多用于MMH的方法[15]、[16],这些方法可以大致分为监督式[17]、[18]和非监督式[19]、[20]。监督式方法使用预标记的语义标签指导哈希学习过程,这使得不同模态数据在哈希空间中的表示更具区分性,从而提高了检索性能。然而,标记大型数据集不仅耗时且费力,还可能引入标记错误,而且标记信息的有限性也限制了模型的泛化能力,使其难以适应不断变化和扩展的现实世界数据环境。相比之下,非监督式方法通过挖掘数据本身的内在结构来生成哈希码,而不依赖于外部标记信息,这使它们在处理大规模未标记的多媒体数据时具有优势,更符合实际应用场景的需求。然而,现有的非监督式方法面临两个关键瓶颈:首先,没有标签指导,它们往往难以从原始数据中提取出具有区分性的特征。其次,异构模态之间的内在语义差距难以有效弥合。这导致在哈希生成过程中出现不连贯的语义表示,严重限制了检索精度[21]。
近年来,对比语言-图像预训练(CLIP)[22]模型展示了强大的多模态语义理解和关联能力,它可以通过在大量图像-文本对上进行预训练来有效捕获不同模态之间的语义相似性,并在CMH任务中显示出巨大潜力[23]、[24]、[25]。尽管CLIP在其他领域取得了成功,但其解决非监督式MMH中的语义差距和特征限制的潜力仍然很大程度上未被探索。我们不仅将CLIP视为特征提取器,还将其视为将丰富、预先对齐的语义先验注入哈希过程的关键机制。
为了解决上述挑战,我们提出了基于CLIP的语义融合多模态哈希(CSFMH)框架,该框架通过统一的架构解决了核心问题。具体来说,为了克服非监督环境中的特征表示限制,CSFMH利用预训练的CLIP模型提取丰富的高级视觉和文本表示。同时,为了有效弥合异构模态之间的语义差距,我们构建了一个多模态语义融合模块,增强了模态之间的交互,并将它们整合到一个统一的复合表示中。最后,为了确保高检索效率,我们采用了专门的多模态哈希学习模块,将这些融合的语义投影为适合多模态检索的紧凑、高质量的二进制代码。所提出模型的流程图如图2所示。本研究的主要贡献可以总结如下:
•我们提出了一个新的基于CLIP的语义融合多模态哈希(CSFMH)框架。据我们所知,这是首次将预训练的大规模多模态CLIP模型引入多模态哈希检索任务。
•我们设计了一个多模态语义融合模块,它不仅捕获并利用了CLIP提取的丰富异构模态语义信息,还提供了多模态融合的语义表示。
•在三个文本-图像基准数据集上的广泛实验表明,所提出的CSFMH优于其他最先进的方法。
本文的其余部分组织如下:第2节简要概述了多模态哈希的相关工作,第3节详细描述了所提出的CSFMH方法,第4节给出了相关的实验结果,第5节得出了我们工作的结论。
部分内容
监督式多模态哈希
监督式多模态哈希通常依赖于显式的语义标签或相似性矩阵来保持异构模态之间的语义信息并监督模态间学习。特别是,深度多视图增强哈希(D-MVE-Hash)[26]设计了几种融合方法,在汉明空间中合并卷积和多视图的优势,并引入了一个记忆网络以避免检索期间评估视图稳定性时的计算资源消耗。
符号和问题设置
一般来说,考虑一个由V种模态组成的N个样本的多模态数据集。第v种模态的特征向量可以表示为,其中表示第v种模态的特征空间维度。为了便于描述,本文以文本和图像模态为例,因此多模态数据集可以表示为,其中和表示第i个图像-文本对。文本模态的特征向量可以表示为
评估数据集
所提出的CSFMH在其多模态检索性能上在三个广泛使用的基准数据集上进行了评估:
MIR Flickr [32]是一个包含25,000张图像的数据集,每张图像都有多个不同的文本标签。提出了24个不同的概念来对每张图像进行分类。只有至少具有20个标签的图像-文本对被选为实验数据,其中2,000对数据被随机选为查询集,其余的对被选为检索集,我们随机选择了5,000对数据
结论
在这项工作中,我们提出了一种创新的基于CLIP的语义融合多模态哈希(CSFMH)框架,用于无监督的多模态检索任务。具体来说,我们引入了预训练的CLIP模型从图像和文本中提取特征,据我们所知,这是首次尝试使用CLIP进行多模态哈希检索任务。此外,我们相继设计了一个多模态语义融合模块和一个多模态哈希学习模块,用于异构模态语义
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢
本工作部分得到了青岛市科学技术局在项目24-1-8-cspz-23-nsh和目标认知与应用技术重点实验室在项目2023-CXPT-LC-005下的支持。