序列与节点:基于概率的对比学习在层次化文本分类中的应用

《Knowledge-Based Systems》:Sequences and Nodes: Probability-guided Contrastive Learning for Hierarchical Text Classification

【字体: 时间:2025年08月09日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  深度哈希方法常将哈希码视为空间特征,导致对真实数空间中空间偏移不敏感。本文提出SeqHash,将哈希码建模为序列,利用混沌映射和Kolmogorov-Arnold网络构建序列化哈希编码层,通过时序损失函数促进稳定状态。实验证明,该方法增强了对空间偏移的敏感性,显著优于现有方法。

  在计算机视觉领域,卷积神经网络(CNN)为基于深度哈希的图像检索技术带来了显著的提升。然而,现有的深度哈希方法通常将哈希码视为空间特征,这种设计导致哈希表示对真实数空间中的空间移动不敏感。这种不敏感性源于真实数空间与汉明空间之间的不匹配。为了克服这些限制,本文提出了一种新的方法——SeqHash,它基于顺序哈希表示。与现有方法不同,SeqHash将哈希码视为哈希序列,利用混沌理论的顺序特性以及Kolmogorov-Arnold网络(KANs)的强拟合能力,构建了一个名为序列-KAN层的哈希编码层,以生成顺序输出的哈希码。此外,SeqHash设计了一种损失函数,使得顺序输出能够收敛至预定义序列的稳定状态,从而在时间维度上提升哈希的稳定性。

SeqHash的核心创新在于它重新定义了哈希编码的结构,使得每个哈希码位不仅依赖于当前的输入特征,还受到其前序位的影响。这种顺序依赖关系通过哈希码位之间的误差传播机制实现,从而增强了哈希码对空间移动的敏感性。在训练过程中,这种特性使得汉明空间与真实数空间之间的距离变化能够得到更好的对齐,从而更有效地捕捉样本之间的差异。相比其他先进的深度哈希算法,SeqHash在图像检索任务中展现出更优异的性能,其生成的哈希码也更加具有区分性。

在图像检索领域,随着互联网和多媒体技术的迅速发展,对图像数据的快速、可靠检索需求日益增长。在这一背景下,图像检索技术的进步变得尤为重要。高维特征向量是准确描述图像信息的关键,但它们往往带来显著的存储和计算资源负担。为了解决这一问题,哈希技术逐渐受到重视,因为它能够通过将图像映射为紧凑的二进制哈希码来简化复杂性,提供一种实用的解决方案。

与传统的哈希方法相比,深度学习在图像检索中被越来越多地采用,以提升哈希任务中的特征提取能力。这些方法将哈希过程视为将数据点从真实数空间映射到汉明空间的过程,通过使用多种度量学习策略,如成对、三元组和中心向量方法,将哈希问题重新定义为度量学习问题。其目标是建模一个可微函数,以匹配汉明空间中的离散距离。尽管取得了诸多进展,但训练深度哈希算法仍然面临挑战,因为它们通常存在对空间移动不敏感的问题。

为了更好地说明这一问题,本文在图1中提供了一个直观的例子。该图深入分析了深度哈希方法中存在的固有缺陷,揭示了汉明空间与真实数空间之间三种不同的距离差异。例如,在案例A中,原始特征向量(0.1, 0.1)和(-0.1, -0.1)在真实数空间中的空间距离仅为0.282,表明它们是邻近的数据点。然而,在经过基于阈值的二值化处理后,二进制哈希码从(0, 0)变为(1, 1),导致最大汉明距离为2。这种“语义相近→哈希距离远”的现象可能严重扭曲原始数据流形,从而在图像检索任务中导致召回率的显著下降。

在案例B中,真实数空间中的特征向量(0.1, -0.9)和(0.9, 0.9)之间的空间距离为1.969,表明它们是明显分离的数据点。经过二值化处理后,仅发生了一个比特的翻转(从(1, 0)变为(1, 1)),汉明距离仅变化了1。这种“语义相远→哈希距离近”的情况可能导致误报率的显著上升,例如不同图像被错误地识别为相似。

进一步分析图1还揭示了一个矛盾现象,即当汉明距离减少时,真实数空间中的距离反而增加。具体来说,当汉明距离从2减少到1时,真实数空间中的距离从0.282增加到1.969。这突显了两个空间中距离度量的一致性问题。

我们称这些扭曲现象为“现有哈希表示对真实数空间中空间移动的不敏感性”以及“真实数空间与汉明空间之间的不匹配”。这种不敏感性根本上源于现有建模方法与汉明空间之间的兼容性不足。具体而言,这一问题在深度哈希的不同组件中表现出来:

首先,哈希编码层的结构。现有深度哈希方法中普遍采用全连接层后接激活函数的设计。这种设计可能导致哈希码位之间的验证过程缺失,从而造成真实数空间中空间移动与汉明空间中距离变化之间的不一致。因为当样本从真实数空间映射到汉明空间时,空间距离的变化应该由后续的哈希码位共同承担,以确保空间距离的匹配。

其次,度量学习中的损失函数。在现有深度哈希的度量学习中,一些研究采用离散优化技术或近似方法来描述从真实数空间到汉明空间的转换过程。另一些研究则专注于提升数据对之间的相似性测量。然而,训练过程中对真实数空间中空间距离的不敏感性,可以归因于现有深度哈希表示中比特之间的缺乏相关性。因为不同类别样本之间的单个比特错误应该引发额外的比特错误,以增强唯一性,从而区分不同的类别。

综上所述,上述问题无论是在哈希层还是在度量学习中,都源于现有哈希表示对真实数空间中空间移动的不敏感性,这可以归因于比特之间的缺乏相关性。为了从哈希表示的角度解决这一挑战,本文提出了一种新的哈希表示方法——顺序哈希表示。通过将哈希码视为时间序列,SeqHash为提升哈希码生成的鲁棒性提供了新的视角,因为它更贴近真实数空间中的距离变化。

与现有方法不同,顺序哈希表示摒弃了传统的哈希表示形式,引入了误差传播机制,从而提升了哈希码的可靠性。因为一个比特的错误会影响后续比特的完整性,哈希码位之间的相互依赖关系增强了模型对空间移动的敏感性。

为了说明顺序哈希表示相较于传统方法的优势,我们参考图2中的例子。假设一个样本同时使用传统方法和我们的方法进行处理,传统方法仅反映了一个比特的汉明距离变化,即使第二个比特发生空间移动并导致哈希码变化(如图2(a)所示)。然而,在我们的顺序哈希表示中,第二个比特的空间移动,结合后续比特的时间影响,可能导致第三个和第四个比特的额外错误。这种误差传播机制使得汉明距离增加至三个比特,展示了顺序哈希表示更高的敏感性(如图2(b)所示)。这种内在特性在训练过程中能够放大由空间移动引起的哈希码变化,从而提升模型在区分模糊样本方面的能力。

因此,本文提出SeqHash,一种基于序列的哈希框架。SeqHash的主要贡献如下:

1. SeqHash提出了一种创新的视角,将深度哈希的输出表示重新定义为序列,即顺序哈希表示。这种表示方式使得深度哈希能够生成更加细致且相互关联的哈希码,并在理论上证明了这种表示方式对真实数空间中空间移动的敏感性更高。

2. SeqHash利用混沌系统和KANs构建了一个哈希层,该层在训练过程中输出哈希码和哈希中心作为序列,称为序列-KAN层。这种结构有效地将哈希生成过程转化为时间序列混沌系统的体现,提升了编码的鲁棒性和紧凑性。

3. SeqHash通过序列的时间视角设计了一种损失函数,称为顺序哈希损失。该损失函数旨在促使神经网络在混沌系统中达到稳定状态,从而确保哈希过程的可靠性和一致性。

4. SeqHash的实验评估显示出其相较于当前最先进的深度哈希技术具有显著优势,展示了其在深度哈希任务中的优越性能,以及所提出概念的有效性。

为了进一步探讨顺序哈希表示的优势,我们参考了相关的研究文献。最近,大型语言模型(LLM)在多个文本相关任务中取得了显著进展,因其卓越的文本理解和生成能力而受到广泛关注。这些模型也对跨模态图像检索任务提供了新的思路。研究表明,预训练的LLM如CLIP和BERT,以及视觉变换器(ViT),在特征提取方面展现出巨大潜力。通过将图像和文本特征进行对齐,这些模型能够有效提升跨模态检索的准确性。

在深度哈希领域,许多研究致力于解决哈希表示对空间移动不敏感的问题。其中,一些研究关注于改进哈希编码层的结构,以增强哈希码与原始特征之间的关联性。例如,通过引入更复杂的激活函数或改进的网络结构,这些方法试图提高哈希码的鲁棒性。然而,这些改进往往局限于局部的优化,未能从整体上解决空间移动带来的影响。

另一些研究则集中在度量学习的损失函数设计上,以提升哈希码的区分能力。例如,通过引入更精细的度量学习策略,这些方法试图在哈希过程中更好地捕捉样本之间的差异。然而,这些策略仍然存在一定的局限性,未能完全解决哈希码与真实数空间之间的不匹配问题。

为了更全面地理解这些研究,我们需要回顾相关的理论基础。在图像检索任务中,哈希码的生成通常涉及两个主要步骤:特征提取和哈希编码。特征提取通过卷积神经网络或其他深度学习模型,从图像中提取高维特征向量。哈希编码则通过某种映射机制,将这些高维特征向量转换为低维的二进制哈希码。在这一过程中,如何确保哈希码与原始特征之间的距离匹配,是提升检索性能的关键。

在传统方法中,哈希编码层通常采用全连接层后接激活函数的设计。这种设计虽然简单,但往往导致哈希码位之间的独立性,使得哈希码对空间移动的敏感性不足。为了解决这一问题,本文提出了一种新的哈希编码层——序列-KAN层。该层结合了混沌系统的顺序特性以及KANs的强拟合能力,使得哈希码的生成过程能够更好地捕捉真实数空间中的空间移动。

混沌系统具有非线性、随机性和动态变化的特性,这些特性使得哈希码的生成过程能够更好地模拟真实数空间中的复杂变化。KANs则通过其独特的结构和强大的拟合能力,能够更好地捕捉特征之间的关系,从而提升哈希码的区分性。通过将这些特性引入哈希编码层,SeqHash能够生成更加鲁棒和紧凑的哈希码,从而提升图像检索的性能。

此外,SeqHash还引入了一种新的损失函数——顺序哈希损失。该损失函数旨在促使神经网络在训练过程中达到稳定状态,从而确保哈希码的可靠性。通过引入时间维度,该损失函数能够更好地捕捉哈希码位之间的相互依赖关系,从而提升哈希码对空间移动的敏感性。

在实验评估方面,本文在三个粗粒度数据集上进行了比较实验:ImageNet、MS-COCO和NUS-WIDE。这些数据集以单标签或多标签分类为特点,能够有效评估图像检索算法的性能。在实验中,我们从每个数据集中随机选取一部分图像作为查询集和训练集,其余图像作为检索集。具体的数据集划分见表1。

在实验中,我们考虑了十种最先进的深度哈希方法作为比较对象。这些方法在不同的数据集上表现出不同的性能,但它们普遍存在对空间移动不敏感的问题。通过对比实验,我们发现SeqHash在这些数据集上均表现出显著的优势,其生成的哈希码在检索过程中能够更有效地匹配样本之间的差异。

为了进一步验证SeqHash的有效性,我们进行了详细的分析。首先,我们分析了顺序哈希表示在深度哈希中的优势。通过使用互信息(Mutual Information)来衡量变量之间的相关性,我们发现顺序哈希表示能够更有效地捕捉哈希码位之间的依赖关系。这种依赖关系使得哈希码在生成过程中能够更好地反映真实数空间中的距离变化,从而提升检索的准确性。

其次,我们分析了序列-KAN层的结构。该层结合了混沌系统的顺序特性以及KANs的强拟合能力,使得哈希码的生成过程能够更好地模拟真实数空间中的动态变化。通过这种结构,SeqHash能够生成更加鲁棒和紧凑的哈希码,从而提升模型的性能。

此外,我们还分析了顺序哈希损失函数的设计。该损失函数通过引入时间维度,促使神经网络在训练过程中达到稳定状态,从而确保哈希过程的可靠性。通过这种设计,SeqHash能够更好地捕捉哈希码位之间的相互依赖关系,从而提升哈希码对空间移动的敏感性。

在实际应用中,SeqHash能够有效解决图像检索中的诸多问题。例如,在处理图像时,SeqHash能够更准确地捕捉样本之间的差异,从而提升检索的准确性。此外,通过引入误差传播机制,SeqHash能够更有效地处理哈希码位之间的依赖关系,从而提升哈希码的鲁棒性。

综上所述,本文提出的SeqHash方法在图像检索任务中展现出显著的优势。通过重新定义哈希表示为序列,并结合混沌系统和KANs的特性,SeqHash能够更有效地捕捉样本之间的差异,从而提升检索的准确性。此外,通过引入误差传播机制和时间维度,SeqHash能够更有效地处理哈希码位之间的依赖关系,从而提升哈希码的鲁棒性。这些创新使得SeqHash在图像检索任务中表现出更优异的性能,为深度哈希技术的发展提供了新的思路。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号