
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于层次化编码器-解码器的图像描述生成模型(HierCap):多粒度视觉信息与文本的跨模态协同融合
【字体: 大 中 小 】 时间:2025年10月18日 来源:Neurocomputing 6.5
编辑推荐:
本文提出了一种层次化编码器-解码器模型(HierCap),用于解决现有图像描述生成(Image Captioning)方法忽略视觉信息层次结构、未能建模视觉元素全局关系以及未探索多级语义协同作用的问题。该模型通过全局(位置关系)、区域(主体对象)和网格(局部细节)三个层次的专用子编码器构建互补视觉表征,并设计了四种变体的层次融合模块(Hierarchical Fusion Module)探索视觉特征与文本特征的跨模态协同融合。实验在COCO、NoCaps、Flickr8k和Flickr30k数据集上验证了其优越性,表明层次化视觉编码与跨模态融合能生成更准确、语义更丰富的描述。
生物通微信公众号
知名企业招聘