用于视觉-语言预训练的全球与局部语义补全学习
《IEEE Transactions on Pattern Analysis and Machine Intelligence》:Global and Local Semantic Completion Learning for Vision-Language Pre-Training
【字体:
大
中
小
】
时间:2025年11月19日
来源:IEEE Transactions on Pattern Analysis and Machine Intelligence 18.6
编辑推荐:
跨模态对齐是视觉语言预训练的关键,现有方法多关注局部模态关联而忽视全局语义整合。本文提出GLSCL任务,通过 masked global semantic completion 和 masked local token completion 同时强化全局-局部跨模态对齐,并构建ALIGN-Bench验证集,实验表明该方法在视觉问答、图像文本检索等任务中达到SOTA性能。
摘要:
跨模态对齐在视觉-语言预训练(VLP)模型中起着关键作用,使模型能够捕捉不同模态之间的有意义关联。为此,受到自然语言处理(NLP)预训练领域中掩码语言建模(MLM)任务成功的启发,人们提出了许多针对VLP的掩码建模任务,以进一步促进跨模态交互。以往掩码建模任务的核心思想是专注于根据可见上下文重建被掩码的标记,从而学习局部-局部对齐,即图像块与文本标记之间的关联。然而,这些任务大多忽略了为被掩码数据生成的全局语义特征,导致全局表示与另一种模态的局部特征之间的跨模态对齐能力有限。因此,在本文中,我们提出了一种新的全局与局部语义补全学习(GLSCL)任务,以同时实现全局-局部对齐和局部-局部对齐。具体而言,GLSCL任务通过跨模态交互来补充被掩码数据缺失的语义,并恢复全局和局部特征。我们的GLSCL包括全局语义补全(MGSC)和局部标记补全(MLTC)。MGSC有助于学习更具代表性的全局特征,这对下游任务的性能有很大影响,而MLTC则重建融合了多种模态的局部标记,进一步提高了对多模态数据的准确理解能力。为了评估所提出的方法在跨模态对齐方面的效果,我们开发了一个名为ALIGN-BENCH的验证基准。此外,我们设计了一种灵活的视觉编码器,使我们的模型能够同时执行图像-文本和视频-文本的多模态任务。实验结果表明,我们提出的方法在各种视觉-语言基准任务(如视觉问答、图像-文本检索和视频-文本检索)上取得了先进的性能。
引言
现实世界中包含各种各样的信息,如文本、图像、声音等。为了开发出强大的通用人工智能系统,有必要捕捉来自不同模态源的语义关联。为此,多模态表示学习作为一种关键技术应运而生,用于弥合不同模态之间的异质性差距[1]、[2]。在这一领域,视觉-语言预训练模型[3]、[4]、[5]、[6]、[7]展示了出色的语义对齐能力,从而在各种下游任务(如视觉问答、图像-文本检索等)中取得了显著进展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号