基于相似性的交互与特征强调不匹配的网络在文本到图像的人脸重识别中的应用
《Neurocomputing》:Similarity-guided interaction and mismatched feature emphasis network for text-to-image person re-identification
【字体:
大
中
小
】
时间:2025年12月11日
来源:Neurocomputing 6.5
编辑推荐:
针对文本到图像的人脸重识别任务,提出SIME模型,通过相似性引导的文本遮盖策略和异配特征增强机制,有效提升跨模态对齐效果,并在公开数据集上验证了其优于现有方法的性能。
冉秋月|董世都|袁凯|文婷
重庆理工大学人工智能学院,中国重庆401135
章节摘要
相关工作
文本到图像的人重识别(TI-ReID)是一项复杂的任务,需要准确地在描述性文本输入与其对应的个体视觉表示之间进行跨模态对齐,这通常会受到模态差异的复杂影响。克服模态异质性并实现图像和文本之间的稳健跨模态对齐对于成功的TI-ReID至关重要。最近,掩码语言建模(MLM)方法被应用于TI-ReID中。通过隐式地捕捉...
方法
在本节中,我们详细介绍了我们提出的SIME(Similarity-guided Interaction and Mismatched Feature Emphasis Network)的实现细节,其总体框架如图3所示。给定一对图像和文本,我们首先使用Radford等人(2021年)提出的对比语言-图像预训练(CLIP)模型中的预训练编码器来提取图像和文本的特征图。具体来说,我们使用12层视觉Transformer(ViT)作为图像编码器,以及12层Transformer架构作为文本编码器。接下来,提取的特征通过四个并行处理模块进行进一步处理...
实验
本节详细介绍了我们在两个TI-ReID数据集上进行的全面实验分析,旨在验证我们方法的有效性。我们首先介绍了两个广泛使用的公开数据集,并概述了我们模型的实现和训练过程。随后,我们对我们的方法与其他前沿技术在两个数据集上的表现进行了比较分析。最后,我们通过一系列消融研究来突出...
结论
本文解决了文本到图像人重识别中的两个关键挑战:随机文本令牌掩码在整合图像信息方面的局限性,以及未充分探索的不一致特征的潜力。我们提出了基于相似性引导的交互和不一致特征增强网络(SIME),该网络通过相似性引导的掩码策略优化了掩码语言建模过程中的视觉信息整合,并创新性地利用不一致特征来提升识别性能...
CRediT作者贡献声明
冉秋月:可视化、写作——原始草案、软件开发、方法论设计、形式化分析。董世都:写作——审稿与编辑、资金获取、概念构思、指导。袁凯:数据调查与整理。文婷:数据验证与整理。
利益冲突声明
作者声明他们没有已知的可能影响本文研究结果的财务利益或个人关系。
致谢
作者感谢匿名审稿人的宝贵意见和建议。本研究部分得到了重庆市自然科学基金的支持,项目编号为2022NSCQ-MSX1393。
冉秋月是中国重庆理工大学的研究生,目前攻读人工智能硕士学位。她的研究方向是人物重识别。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号