
-
生物通官微
陪你抓住生命科技
跳动的脉搏
双流特征提取与语义相似性驱动的深度哈希图像检索模型DSFTH研究
【字体: 大 中 小 】 时间:2025年06月23日 来源:Knowledge-Based Systems 7.2
编辑推荐:
为解决CNN和ViT在图像检索中局部与全局特征提取的局限性,研究人员提出DSFTH框架,集成双流特征提取模块(DSFE)和新型似然损失函数,在CIFAR-10等4个数据集上实现93.25%-95.02%的检索准确率,显著提升哈希码的语义表达能力与检索鲁棒性。
在社交媒体和医疗影像爆发式增长的今天,海量图像的高效检索成为计算机视觉领域的核心挑战。传统基于文本标签或手工特征的检索方法已难以应对数据规模的膨胀,而深度哈希技术通过将高维图像映射为紧凑二进制码,成为解决存储与计算效率问题的关键。然而,当前主流的卷积神经网络(CNN)和视觉Transformer(ViT)在特征提取上各有短板——CNN擅长捕捉局部细节却忽视全局关联,ViT长于建模全局上下文但对局部变化不敏感。这种"顾此失彼"的特性导致生成的哈希码语义表达不充分,直接影响检索精度。
针对这一瓶颈,新疆大学Wenjun Li团队在《Knowledge-Based Systems》发表研究,提出名为DSFTH的创新框架。该工作以动态滤波器网络DFFormer29为骨干,首创双流特征提取模块(Dual-Stream Feature Extraction, DSFE),通过并行卷积与注意力路径实现局部-全局特征协同增强;同时设计基于似然的损失函数,强制相似图像生成相近哈希码,显著提升语义一致性。实验表明,DSFTH在CIFAR-10等数据集上平均准确率最高达95.02%,较现有方法有明显提升。
关键技术包括:1)构建四阶段渐进式网络架构,集成DSFE模块强化每层特征提取;2)融合CNN的局部感知与Transformer的全局建模能力;3)采用新似然损失优化哈希空间分布。研究使用公开数据集CIFAR-10、ImageNet等进行验证,通过mAP等指标评估性能。
【CNN与ViT的局限性】指出传统CNN哈希方法如CNNH存在特征-哈希分阶段训练的缺陷,而ViT面临计算资源消耗大的问题。
【方法论】详述DSFTH框架:DSFE模块通过查询-值全局交互挖掘特征,配合逐元素乘积实现局部-全局特征融合;哈希学习阶段通过sign函数量化特征,结合分类损失与似然损失优化模型。
【实验】显示在CIFAR-10上48-bit哈希码取得95.02% mAP,较对比方法最高提升7.82%;消融实验证实DSFE模块使NUS-WIDE检索精度提高4.37%。
【结论】强调DSFTH通过特征融合与语义优化,突破现有方法性能瓶颈。未来工作将探索轻量化部署,这对医疗影像分析等实际应用具有重要价值。该研究为多模态检索、联邦学习等延伸方向提供了新思路。
生物通微信公众号
知名企业招聘