HIN:用于图像字幕的层次交互网络
《ACM Transactions on Multimedia Computing, Communications, and Applications》:HIN: Hierarchical Interaction Network for Image Captioning
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
编辑推荐:
图像描述生成任务中提出HIN网络,通过CTFA编码器对齐多类型视觉特征,HI模块实现分层特征交互与信息挖掘,BGAF解码器进行多级解码,有效提升特征融合能力,在MS-COCO数据集上达到新SOTA,代码开源。
摘要
图像字幕任务的目的是理解图像的内容并生成相应的描述性文本。传统的图像字幕方法通常通过从图像中提取不同类型的视觉特征并进行特征交互来生成描述性文本。然而,这些方法往往无法充分利用不同类型视觉特征之间的相互作用,导致特征整合效果不佳。为了解决这一局限性,我们提出了一种新颖的层次交互网络(HIN),该网络旨在持续提取和交互不同类型的视觉特征,以实现更有效的多级特征交互。我们的HIN包含三个关键模块:首先,我们设计了跨类型特征对齐(CTFA)编码器,它通过三个全局特征对齐不同类型的视觉特征,以便后续模块能够有效地进行层次交互;其次,层次交互(HI)模块利用编码器输出的不同类型的多级特征进行特征交互和信息挖掘,从而生成经过充分挖掘的多级特征;最后,自下而上的注意力融合(BGAF)解码器用于对HI模块挖掘的特征进行多级解码,进一步提升HIN的特征交互能力。此外,在MS-COCO数据集上的额外实验表明,我们的模型取得了新的最佳性能。所有代码均可在
https://github.com/songchuanle-1/HIN获取。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号