
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于YOLO与自编码器的目标检测哈希图像检索方法研究
【字体: 大 中 小 】 时间:2025年07月19日 来源:Signal Processing: Image Communication 3.4
编辑推荐:
针对传统图像检索(IR)方法因包含背景冗余语义导致哈希码不精准的问题,研究人员提出基于YOLO V4目标检测和自编码器的ODH-IR方案。该方案通过提取图像核心对象特征生成哈希码,在MS COCO等数据集上取得35/36最佳指标,平均排名1.03,显著提升多标签图像检索精度。
在多媒体数据爆炸式增长的时代,图像检索(Image Retrieval, IR)技术已成为从海量数据库中快速定位相似图像的关键工具。传统IR方法依赖人工提取的颜色、纹理等视觉特征,而深度学习虽能自动生成特征哈希码,却因包含背景冗余语义导致检索精度受限。现有基于全图像的哈希方法如DH-FFL、IDHN等,其加权平均精度(wMAP)、归一化折损累积增益(NDCG)等指标表现不佳,凸显了聚焦图像核心语义的重要性。
研究人员创新性地将目标检测与哈希编码相结合,提出ODH-IR方案。该方案采用YOLO V4精准定位图像中的核心对象,通过自编码器将检测到的对象特征向量压缩至目标哈希码长度,最终生成仅包含关键语义的二进制编码。在MS COCO、MIRFLICKR-25K和NUS-WIDE三大基准数据集测试中,该方法在36项指标测量中获得35项最优,平均排名达1.03,显著超越现有技术。
关键技术包括:1) YOLO V4实现实时多目标检测;2) 自编码器进行特征降维;3) 量化生成紧凑哈希码。研究通过对比实验验证,ODH-IR在ACG(累积增益)、NDCG@50等指标上最高提升23.7%,且可视化案例显示其检索结果更符合语义相关性。
研究结果部分显示:《Preliminary》阐明YOLO V4检测边界框与自编码器降维的协同机制;《The proposed ODH-IR scheme》详述网络训练中采用的三阶段特征融合策略;《Experimental results》通过t-SNE可视化证明哈希码的类内聚集性优于基线模型;《Conclusion》指出该方法为医疗影像检索等需排除背景干扰的场景提供新思路。
这项发表于《Signal Processing: Image Communication》的研究,首次将目标检测先验知识引入哈希学习,解决了传统方法语义稀释的痛点。作者U?ur Erkan等通过严格的消融实验证实,仅采用检测对象特征可使wMAP提升18.2%。该成果为跨模态检索、自动驾驶图像理解等领域提供了可解释的特征编码范式,其代码已开源于GitHub平台。
生物通微信公众号
知名企业招聘