基于标签图约束与条件扩散模型的显式语义引导双不完整多模态哈希学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：Explicit Semantic Guided Bi-Incomplete Multi-modal Hashing with Label Co-occurrence and Label Graph Constraints

【字体：大中小】 时间：2025年10月18日 来源：Neural Networks 6.3

编辑推荐：

　　本文提出LaDiff-BIMH框架，创新性地通过标签图约束自编码器（Label Graph Constrained Autoencoder）实现模态重建，结合条件去噪扩散概率模型（Conditional DDPM）完成缺失模态补全，最后通过显式语义引导的多模态哈希学习生成具有判别性的二进制哈希码。该研究为解决实际应用中多模态特征与标签双缺失（bi-incompleteness）的检索难题提供了统一解决方案。

亮点

•
提出新型多模态哈希方法LaDiff-BIMH，在统一框架内解决多模态特征和标签的双不完整（bi-incompleteness）问题
•
基于可用标签构建标签相似度矩阵约束潜在空间样本关系，结合标签共现信息生成伪标签以补全缺失类别语义
•
引入条件DDPM（Conditional DDPM），以模态和伪标签为条件生成符合目标模态分布的特征
•
通过自适应加权多模态融合学习哈希码，结合伪标签监督与判别性哈希中心设计增强语义一致性和判别力

相关研究

现有多模态学习（multi-modal learning）方法通常假设所有样本具有完整模态特征，而实际应用中多模态数据往往存在缺失。针对不完整多模态学习（incomplete multi-modal learning）的方法可分为三类：

符号定义

本节定义本文所用符号，其中粗体大写字母表示矩阵，斜体粗体小写字母表示向量。设输入数据集为D={X,Y}，包含n个包含图像、文本及其标签的多模态样本。图像和文本特征分别使用VGGNet和词袋（Bag of Words, BoW）模型提取，得到X^(I)={x_i^(I)∈R^d_I}_i=1ⁿ 和 X^(T)={x_i^(T)∈R^d_T}_i=1ⁿ，其中d_I和d_T分别表示特征维度。可用标签...

数据集与评估指标

我们使用三个公共图像-文本基准数据集：MIR Flickr、NUS-WIDE和MS COCO。分别采用VGGNet和词袋（BoW）模型提取图像和文本特征表示。为公平比较，我们采用与BSTH相同的特征提取策略。由于我们的主要贡献是解决双不完整多模态哈希问题，使用相同特征可确保...

结论

本文提出LaDiff-BIMH，旨在统一框架内解决多模态特征和标签双不完整的挑战。该方法通过标签图约束自编码器的模态重建、条件DDPM的不完整模态补全和显式语义引导的多模态哈希学习，实现了不完整模态特征的重建、补全以及具有语义一致性和判别性的哈希学习。

联系信箱：

粤ICP备09063491号

热点排行