UIT-OpenViIC:越南语开放域图像描述基准数据集与多层级编码器输出融合方法CAMO的提出

《Signal Processing: Image Communication》:UIT-OpenViIC: An open-domain benchmark for evaluating image captioning in Vietnamese

【字体: 时间:2025年11月02日 来源:Signal Processing: Image Communication 3.4

编辑推荐:

  本文介绍了首个针对越南语的大规模开放域图像描述(Image Captioning, IC)基准数据集UIT-OpenViIC,该数据集包含大量具有越南本土文化背景的图像,并由人工严格标注。研究通过评估多种基于Transformer的先进模型(如M2 Transformer、RSTNet等),证明该数据集在视觉和语言层面均具挑战性。同时,作者提出CAMO(Cross-Attention on Multi-level Outputs)方法,通过自注意力机制融合编码器多层级输出,有效提升了生成描述的CIDEr评分。本研究为低资源语言(如越南语)的视觉-语言任务提供了重要基准和方法创新。

  
Highlight
常见基准数据集
Flickr30K。Flickr30k数据集及其前身Flickr8k是最早被提出用于评估图像描述(Image Captioning)任务的数据集之一。Flickr系列数据集包含从Flickr平台收集的关于日常活动、场景和事件的图像(Flickr8k有8,092张图像,Flickr30k有31,783张图像),其关联的描述通过众包获得。对于Flickr30k数据集中的每张图像,标注者需要至少标注五个描述。在所有图像标注完成后,
数据集创建过程
首先,我们主要使用越南语关键词从谷歌(Google)和必应(Bing)抓取图像。之后,我们过滤掉一些不包含足够信息以供描述的重复图像。最终筛选出的图像数量为13,100张。然后,我们将它们分成十个子集;每个子集包含1,310张图像。在标注方面,我们有一个由信息科技大学软件工程学院的51名在校学生组成的团队。这51名学生被分成
CAMO:基于多层级编码器输出的交叉注意力
为了在使用基于Transformer的模型时提升我们UIT-OpenViIC数据集中生成描述的质量,我们提出了Cross-Attention on Multi-level Encoder Outputs(CAMO,基于多层级编码器输出的交叉注意力)模块,该模块用于增强来自编码器多层级(Multi-level)的编码输出。在原始Transformer架构中,有N个编码器层;每一层将前一层的输出作为输入,并继续学习高层潜在空间。通常,只有最后一个编码器的最终输出
基线方法
我们选择了八种基于Transformer的图像描述先进模型来评估它们在UIT-OpenViIC数据集上的性能:Transformer、ORT、M2 Transformer、RSTNet、DLCT、DIFNet、MDSANet。Transformer是由Vaswani等人提出的标准Transformer架构。ORT是首个使用边界框坐标作为辅助信息的研究,以更好地指导自注意力(Self-Attention)机制。M2 Transformer实现了使用所有
结论
在本研究中,我们介绍了UIT-OpenViIC数据集,这是首个包含与越南语境相关的开放域图像的越南语数据集,同时也是越南语数据集中图像-描述对数量最多的。此外,我们提出了基于多层级编码器输出的交叉注意力(CAMO)方法,以增强Transformer编码器产生的高层特征质量。通过实验,我们证明我们的方法是有效的,并且能够提升
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号