
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于双曲空间深度二值嵌入的大规模图像检索方法研究
【字体: 大 中 小 】 时间:2025年09月05日 来源:Neurocomputing 6.5
编辑推荐:
本文提出了一种创新的深度双曲二值嵌入框架(DBHE),通过将视觉Transformer(ViT)提取的特征映射到庞加莱球(Poincaré ball)双曲空间,有效捕捉图像数据的层次语义结构。该方法设计了基于双曲距离的成对交叉熵损失函数,显著提升了哈希码的判别性,在MIRFLICKR-25K等数据集上验证了其检索性能优势。
亮点
• 通过庞加莱球投影将嵌入特征引入双曲空间(Hyperbolic Space),利用其指数级体积增长特性建模层次语义结构
• 开发基于双曲距离的成对交叉熵损失(Pairwise Cross-Entropy Loss),优化相似样本的紧凑性和异类样本的分离性
• 在MIRFLICKR-25K、NUS-WIDE和MS COCO数据集上验证了算法优势
方法学
本框架包含两大核心模块:
1)特征提取模块:采用视觉Transformer(ViT)捕捉图像深层语义
2)哈希学习模块:通过双曲空间投影和新型损失函数,生成具有层次感知能力的二进制哈希码
实验验证
在三大基准数据集上的实验表明:
• 相比欧几里得空间方法,DBHE在mAP和P@N等指标上显著提升
• 双曲嵌入能有效保持"猫科动物→布偶猫/斯芬克斯猫"等层级语义关系
结论与展望
DBHE框架通过双曲几何特性突破传统哈希检索瓶颈,未来可探索:
1)动态曲率双曲空间优化
2)跨模态层次语义建模
作者贡献声明
张梦茹:论文撰写/算法设计;王恩浩:数据采集/代码实现;秦启兵:课题指导/基金支持;侯金奎:技术监督;张文峰:方法论研究;黄磊:项目管理
利益冲突声明
作者声明无潜在竞争性利益
致谢
感谢国家自然科学基金(62302338)和山东省自然科学基金(ZR2022QF046)等项目的资助
(注:根据要求已去除文献引用标识[1][2]及图1(a)(b)等标注,专业术语保留英文缩写并规范使用标签)
生物通微信公众号
知名企业招聘