
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多级交互的无监督跨模态哈希检索方法研究:从粗粒度到细粒度的信息融合
【字体: 大 中 小 】 时间:2025年06月21日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
针对无监督跨模态哈希检索中信息交互不足导致性能欠佳的问题,研究人员提出UCHRMI框架,通过跨模态共同哈希学习模块和模态特异性哈希学习模块实现粗粒度交互,结合实例级相似性约束实现细粒度交互,显著提升检索性能。实验证明该方法在多个数据集上优于现有技术,为跨模态检索提供了新思路。
在数字化时代,图像、文本等跨模态数据呈爆炸式增长,如何高效检索关联信息成为关键挑战。传统跨模态哈希方法面临两大瓶颈:一是依赖人工标注标签,成本高昂;二是现有无监督方法仅关注单一层次的信息交互,导致语义挖掘不充分。例如,基于特征相似性的方法难以捕捉模态间深层关联,而图卷积网络虽能聚合邻域信息,却忽略了从粗粒度(模态间)到细粒度(实例间)的协同优化。
针对这一难题,昆明理工大学的研究团队在《Engineering Applications of Artificial Intelligence》发表论文,提出多级交互的无监督跨模态哈希检索框架UCHRMI。该研究创新性地构建了三级交互机制:通过自注意力机制和重构损失学习模态不变性共同哈希码(cross-modal common hashing);利用双重对比学习(dual-contrastive learning)增强模态特异性哈希码的判别性;最后通过实例级相似性约束实现细粒度对齐。这种"由粗到细"的交互策略,使得相似样本能生成相似哈希码,显著缩小了异构模态间的语义鸿沟。
关键技术包括:1)基于自注意力的跨模态特征融合;2)双重对比学习优化模态特异性哈希空间;3)多模态相似性矩阵构建指导实例级交互。实验采用MIR Flickr等三个公开数据集,图像特征采用ResNet18提取的4096维CNN特征,文本特征采用1386维词袋(BoW)向量。
研究结果可分为三部分:
跨模态共同哈希学习模块
通过自注意力机制实现模态间初步交互,结合重构损失保留模态不变性,生成高质量共同哈希码。该模块使图像和文本在共享哈希空间中的分布一致性提升23.6%。
模态特异性哈希学习模块
引入双重对比学习策略,先通过模态内对比增强类内紧致性,再通过模态间对比对齐跨模态语义。实验显示该模块使文本到图像检索的mAP16bit达到0.752,较基线方法提升12.4%。
语义相似性保持模块
融合多模态邻域信息构建实例级相似性矩阵,约束哈希码生成过程。在NUS-WIDE数据集上,该策略使细粒度检索准确率提升9.8%,验证了实例交互的有效性。
结论表明,UCHRMI通过多级交互机制实现了三重突破:在粗粒度层面桥接模态差异,在细粒度层面捕捉实例关联,最终构建出判别性更强的哈希空间。相比传统方法,该框架在16位哈希码下的平均检索精度提升15.2%,且计算效率提高30%。这项研究不仅为无监督跨模态检索提供了新范式,其分层交互思想对多模态知识图谱构建、医疗影像-报告检索等领域也有重要启示。作者团队在讨论中指出,未来可探索动态交互权重分配策略,以进一步优化复杂场景下的语义对齐效果。
生物通微信公众号
知名企业招聘