基于双曲空间深度二值嵌入的大规模图像检索方法研究

【字体: 时间:2025年09月05日 来源:Neurocomputing 6.5

编辑推荐:

  本文提出了一种创新的深度双曲二值嵌入框架(DBHE),通过将视觉Transformer(ViT)提取的特征映射到庞加莱球(Poincaré ball)双曲空间,有效捕捉图像数据的层次语义结构。该方法设计了基于双曲距离的成对交叉熵损失函数,显著提升了哈希码的判别性,在MIRFLICKR-25K等数据集上验证了其检索性能优势。

  

亮点

• 通过庞加莱球投影将嵌入特征引入双曲空间(Hyperbolic Space),利用其指数级体积增长特性建模层次语义结构

• 开发基于双曲距离的成对交叉熵损失(Pairwise Cross-Entropy Loss),优化相似样本的紧凑性和异类样本的分离性

• 在MIRFLICKR-25K、NUS-WIDE和MS COCO数据集上验证了算法优势

方法学

本框架包含两大核心模块:

1)特征提取模块:采用视觉Transformer(ViT)捕捉图像深层语义

2)哈希学习模块:通过双曲空间投影和新型损失函数,生成具有层次感知能力的二进制哈希码

实验验证

在三大基准数据集上的实验表明:

• 相比欧几里得空间方法,DBHE在mAP和P@N等指标上显著提升

• 双曲嵌入能有效保持"猫科动物→布偶猫/斯芬克斯猫"等层级语义关系

结论与展望

DBHE框架通过双曲几何特性突破传统哈希检索瓶颈,未来可探索:

1)动态曲率双曲空间优化

2)跨模态层次语义建模

作者贡献声明

张梦茹:论文撰写/算法设计;王恩浩:数据采集/代码实现;秦启兵:课题指导/基金支持;侯金奎:技术监督;张文峰:方法论研究;黄磊:项目管理

利益冲突声明

作者声明无潜在竞争性利益

致谢

感谢国家自然科学基金(62302338)和山东省自然科学基金(ZR2022QF046)等项目的资助

(注:根据要求已去除文献引用标识[1][2]及图1(a)(b)等标注,专业术语保留英文缩写并规范使用标签)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号