双对齐增强型时尚视觉-语言预训练
《ACM Transactions on Multimedia Computing, Communications, and Applications》:Dual Alignment-enhanced Fashion Vision-Language Pre-training
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
编辑推荐:
时尚预训练视觉语言模型存在三方面局限:文本与多视图图像一致性辨别不足、图像与文本精细对齐缺失、全局联合嵌入缺乏具体监督机制。本文提出双对齐增强型时尚VLP模型,创新性设计多粒度自适应图像-文本对齐(MAITA)和联合嵌入导向对齐(JEA)预训练任务,通过MAITA优化文本/图像编码器实现多粒度对齐,JEA监督全局多模态嵌入的细粒度学习。实验表明该模型在跨模态检索、文本引导图像检索、类别识别及子类识别四项任务中均显著优于现有SOTA模型。
摘要
时尚视觉语言预训练(VLP)模型在处理各种时尚跨模态任务方面展现了卓越的能力。然而,当前的模型仍存在三个显著的限制:1) 无法区分文本描述与多视图图像之间的一致性程度;2) 图像与文本之间的显式细粒度对齐存在不足;3) 缺乏促进全局联合嵌入学习的特定监督机制。为了解决这些限制,我们提出了一种新颖的双重对齐增强型时尚VLP模型。该模型深入挖掘了与每个时尚单品相关的多视图图像和语义属性的丰富资源。值得注意的是,我们引入了两种新的预训练任务:多粒度自适应图像-文本对齐(MAITA)和面向联合嵌入的对齐(JEA)。MAITA通过协调多视图图像与输入文本之间的自适应对齐来优化文本/图像编码器,这包括粗粒度和细粒度的对齐策略,以增强语义理解;而JEA旨在监督全局多模态联合嵌入的细粒度语义学习过程。实验结果涵盖了四个不同的下游任务,包括跨模态检索、文本引导的图像检索、类别识别和子类别识别,证明了我们的模型在性能上显著优于之前的最先进时尚VLP模型。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号