FEAN碎片嵌入与对齐网络:提升图像-文本匹配精度的创新方法
《Engineering Applications of Artificial Intelligence》:FEAN: A Fragments Embedding and Aligning Network for image-text matching
【字体:
大
中
小
】
时间:2025年11月01日
来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
本文提出了一种碎片嵌入与对齐网络(FEAN),通过位置权重特征增强(PWFR)模块补偿图像区域上下文语义信息缺失,结合相似性池化(SP)策略避免碎片冗余对齐,在Flickr30K和MSCOCO数据集上实现图像-文本双向匹配最佳R@1和RSUM值,为多模态学习提供新思路。
先前方法多关注整体文本与整体图像的匹配(即全局匹配)。Wang等人(2016a)使用双分支神经网络分别处理图像和文本数据,并通过交叉视图排序和度量学习进行训练。Faghri等人(2018)利用深度网络获取图像和文本的整体表示后进行相似度计算。Wang等人(2018)采用排序损失和域约束优化跨模态匹配。
本节展示如图3所示的FEAN框架。首先提取跨模态特征,并对图像特征进行位置增强以补偿图像区域上下文语义信息。随后提出碎片嵌入与对齐方法,获取图像和文本的碎片特征及其相似度分数,以减小全局和局部特征间的语义鸿沟。
我们在两个公开图像-文本匹配数据集Flickr30K(Young等人,2014)和MSCOCO(Lin等人,2014)上评估碎片嵌入与对齐网络。Flickr30K包含31,783张Flickr图片,每张图配5句描述。按既往研究(Wang等人,2020;Van等人,2009;Qu等人,2021)划分训练集(29,783张)、验证集(1,000张)和测试集(1,000张)。MSCOCO包含123,287张图片,每张图...
本文提出FEAN以提升图像-文本匹配精度。与传统方法主要关注全局特征表示不同,FEAN兼顾碎片对齐与局部相似性,并通过相似性池化消除冗余对齐。PWFR模块通过位置编码融入图像区域间上下文语义信息,后续碎片对齐网络(FAN)与相似性池化(SP)策略协同优化跨模态交互,在Flickr30K和MSCOCO数据集上达到最优性能。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号