HIN：用于图像字幕的层次交互网络

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

HIN：用于图像字幕的层次交互网络

《ACM Transactions on Multimedia Computing, Communications, and Applications》：HIN: Hierarchical Interaction Network for Image Captioning

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐：

　　图像描述生成任务中提出HIN网络，通过CTFA编码器对齐多类型视觉特征，HI模块实现分层特征交互与信息挖掘，BGAF解码器进行多级解码，有效提升特征融合能力，在MS-COCO数据集上达到新SOTA，代码开源。

摘要

图像字幕任务的目的是理解图像的内容并生成相应的描述性文本。传统的图像字幕方法通常通过从图像中提取不同类型的视觉特征并进行特征交互来生成描述性文本。然而，这些方法往往无法充分利用不同类型视觉特征之间的相互作用，导致特征整合效果不佳。为了解决这一局限性，我们提出了一种新颖的层次交互网络（HIN），该网络旨在持续提取和交互不同类型的视觉特征，以实现更有效的多级特征交互。我们的HIN包含三个关键模块：首先，我们设计了跨类型特征对齐（CTFA）编码器，它通过三个全局特征对齐不同类型的视觉特征，以便后续模块能够有效地进行层次交互；其次，层次交互（HI）模块利用编码器输出的不同类型的多级特征进行特征交互和信息挖掘，从而生成经过充分挖掘的多级特征；最后，自下而上的注意力融合（BGAF）解码器用于对HI模块挖掘的特征进行多级解码，进一步提升HIN的特征交互能力。此外，在MS-COCO数据集上的额外实验表明，我们的模型取得了新的最佳性能。所有代码均可在https://github.com/songchuanle-1/HIN获取。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号