基于层次化编码器-解码器的图像描述生成模型（HierCap）：多粒度视觉信息与文本的跨模态协同融合

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年10月18日 来源：Neurocomputing 6.5

编辑推荐：

　　本文提出了一种层次化编码器-解码器模型（HierCap），用于解决现有图像描述生成（Image Captioning）方法忽略视觉信息层次结构、未能建模视觉元素全局关系以及未探索多级语义协同作用的问题。该模型通过全局（位置关系）、区域（主体对象）和网格（局部细节）三个层次的专用子编码器构建互补视觉表征，并设计了四种变体的层次融合模块（Hierarchical Fusion Module）探索视觉特征与文本特征的跨模态协同融合。实验在COCO、NoCaps、Flickr8k和Flickr30k数据集上验证了其优越性，表明层次化视觉编码与跨模态融合能生成更准确、语义更丰富的描述。

Highlight

•
• 我们提出了一种用于图像描述生成（Image Captioning）的层次化编码器-解码器模型（HierCap），以学习全局、区域和网格层次的层次化视觉表征，并指导模型生成准确的图像描述。
•
• 我们建立了三个视觉子编码器以在每个层次提取层次化视觉表征。我们还验证了层次化视觉编码器捕获多样化语义信息的能力。
•
• 我们提出了一个包含四种变体的层次融合模块，用于整合多级视觉特征和语言特征，旨在探索多级信息的跨模态协同作用。
•
• 我们在四个广泛使用的数据集上测试了HierCap和现有的最先进（SOTA）方法：COCO、Nocaps、Flickr8K和Flickr30K。大量实验表明，所提出的HierCap实现了最佳性能，甚至超越了一些多模态大语言模型（MLLMs）。

Method

在本节中，我们将详细介绍所提出的层次化编码器-解码器图像描述生成模型（HierCap）。首先，我们在第3.1节介绍HierCap的概述。然后，我们在第3.2节讨论图像的初始视觉特征提取器。接着，我们在第3.3节（层次化编码器）和第3.4节（层次化解码器）中详细阐述层次化编码器-解码器的架构。最后，我们在第3.5节给出训练目标。

Experiments

我们在四个广泛使用的数据集上进行了大量实验：COCO、Nocaps、Flickr8K和Flickr30K。采用常见的描述生成指标进行定量评估：BLEU-N、METEOR、ROUGE-L、SPICE和CIDEr（分别表示为B-N、M、R、S和C）。

Conclusion

在本文中，我们提出了一种层次化编码器-解码器图像描述生成模型（HierCap）。我们工作的核心是建立一个包含全局、区域和网格子编码器的层次化编码器，以从图像中捕获多级语义信息。此外，我们的层次融合模块考虑了语义信息的层次性，并探索了层次化视觉信息与文本的跨模态协同融合。大量实验表明...

热点排行

新闻专题

联系信箱：

粤ICP备09063491号