ReAL：通过真实的负样本库学习提升图像文本检索效果

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Multimedia Computing, Communications, and Applications》：ReAL: Improving Image-Text Retrieval with Authentic Negative Repository Learning

【字体：大中小】 时间：2025年11月07日 来源：ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐：

　　图像-文本检索中负样本筛选与轻量化聚类优化方法，提出ReAL框架通过构建特定负样本库和新型损失函数解决语义一致负样本干扰问题，采用双动量编码器扩展负样本范围，引入轻量级聚类优化模块实现1-way-1-out跨模态语义挖掘，实验表明在Flickr30K、MS-COCO等数据集上精度提升显著且推理速度优化。

摘要

目前用于图像文本检索的方法通常采用各种融合模块来实现鲁棒的视觉文本对齐，主要依赖于批量学习来指导匹配过程。一些后续方法试图增加负样本的数量以增强图像文本的对比学习效果。然而，这些方法经常面临语义一致负样本的挑战，即与真实标签存在对应关系的负样本，这会导致跨模态语义学习的混淆。为了解决这个问题，我们提出了一种新的方法Retrieve with Authentic Negative Repository Learning (ReAL)，该方法构建了一个包含高质量负样本对的专用真实负样本库。通过引入具有区分性三元组排名损失的唯一负样本过滤器，ReAL能够通过相似性分布分析和阈值学习有效过滤掉语义一致的负样本。此外，现有的融合范式在利用词级和区域级的细粒度表示来逐步优化融合嵌入时存在复杂性。在本文中，我们提出了一种轻量级的聚类细化模块，该模块能够在一对一的范式中利用跨模态语义。每个视觉文本对齐可以通过聚合和重新分配自发地发现与相邻对齐的相关性，而无需冗余且成本高昂的细化步骤。此外，ReAL采用了具有两个内存银行的双动量编码器，扩大了真实负样本库的选择范围，从而包含更广泛的负样本集。在Flickr30K、MS-COCO以及增强版的Flickr30K（包含更多难处理负样本）上进行的广泛实验证明了ReAL的优越性和鲁棒性，同时其推理时间也比其他竞争性基线显著缩短。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号