基于层次化编码器-解码器的图像描述生成模型(HierCap):多粒度视觉信息与文本的跨模态协同融合

【字体: 时间:2025年10月18日 来源:Neurocomputing 6.5

编辑推荐:

  本文提出了一种层次化编码器-解码器模型(HierCap),用于解决现有图像描述生成(Image Captioning)方法忽略视觉信息层次结构、未能建模视觉元素全局关系以及未探索多级语义协同作用的问题。该模型通过全局(位置关系)、区域(主体对象)和网格(局部细节)三个层次的专用子编码器构建互补视觉表征,并设计了四种变体的层次融合模块(Hierarchical Fusion Module)探索视觉特征与文本特征的跨模态协同融合。实验在COCO、NoCaps、Flickr8k和Flickr30k数据集上验证了其优越性,表明层次化视觉编码与跨模态融合能生成更准确、语义更丰富的描述。

  
Highlight
  • • 我们提出了一种用于图像描述生成(Image Captioning)的层次化编码器-解码器模型(HierCap),以学习全局、区域和网格层次的层次化视觉表征,并指导模型生成准确的图像描述。
  • • 我们建立了三个视觉子编码器以在每个层次提取层次化视觉表征。我们还验证了层次化视觉编码器捕获多样化语义信息的能力。
  • • 我们提出了一个包含四种变体的层次融合模块,用于整合多级视觉特征和语言特征,旨在探索多级信息的跨模态协同作用。
  • • 我们在四个广泛使用的数据集上测试了HierCap和现有的最先进(SOTA)方法:COCO、Nocaps、Flickr8K和Flickr30K。大量实验表明,所提出的HierCap实现了最佳性能,甚至超越了一些多模态大语言模型(MLLMs)。
Method
在本节中,我们将详细介绍所提出的层次化编码器-解码器图像描述生成模型(HierCap)。首先,我们在第3.1节介绍HierCap的概述。然后,我们在第3.2节讨论图像的初始视觉特征提取器。接着,我们在第3.3节(层次化编码器)和第3.4节(层次化解码器)中详细阐述层次化编码器-解码器的架构。最后,我们在第3.5节给出训练目标。
Experiments
我们在四个广泛使用的数据集上进行了大量实验:COCO、Nocaps、Flickr8K和Flickr30K。采用常见的描述生成指标进行定量评估:BLEU-N、METEOR、ROUGE-L、SPICE和CIDEr(分别表示为B-N、M、R、S和C)。
Conclusion
在本文中,我们提出了一种层次化编码器-解码器图像描述生成模型(HierCap)。我们工作的核心是建立一个包含全局、区域和网格子编码器的层次化编码器,以从图像中捕获多级语义信息。此外,我们的层次融合模块考虑了语义信息的层次性,并探索了层次化视觉信息与文本的跨模态协同融合。大量实验表明...
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号