UIT-OpenViIC:越南语开放域图像描述基准数据集与多层级编码器输出融合方法CAMO的提出
《Signal Processing: Image Communication》:UIT-OpenViIC: An open-domain benchmark for evaluating image captioning in Vietnamese
【字体:
大
中
小
】
时间:2025年11月02日
来源:Signal Processing: Image Communication 3.4
编辑推荐:
本文介绍了首个针对越南语的大规模开放域图像描述(Image Captioning, IC)基准数据集UIT-OpenViIC,该数据集包含大量具有越南本土文化背景的图像,并由人工严格标注。研究通过评估多种基于Transformer的先进模型(如M2 Transformer、RSTNet等),证明该数据集在视觉和语言层面均具挑战性。同时,作者提出CAMO(Cross-Attention on Multi-level Outputs)方法,通过自注意力机制融合编码器多层级输出,有效提升了生成描述的CIDEr评分。本研究为低资源语言(如越南语)的视觉-语言任务提供了重要基准和方法创新。
Flickr30K。Flickr30k数据集及其前身Flickr8k是最早被提出用于评估图像描述(Image Captioning)任务的数据集之一。Flickr系列数据集包含从Flickr平台收集的关于日常活动、场景和事件的图像(Flickr8k有8,092张图像,Flickr30k有31,783张图像),其关联的描述通过众包获得。对于Flickr30k数据集中的每张图像,标注者需要至少标注五个描述。在所有图像标注完成后,
首先,我们主要使用越南语关键词从谷歌(Google)和必应(Bing)抓取图像。之后,我们过滤掉一些不包含足够信息以供描述的重复图像。最终筛选出的图像数量为13,100张。然后,我们将它们分成十个子集;每个子集包含1,310张图像。在标注方面,我们有一个由信息科技大学软件工程学院的51名在校学生组成的团队。这51名学生被分成
为了在使用基于Transformer的模型时提升我们UIT-OpenViIC数据集中生成描述的质量,我们提出了Cross-Attention on Multi-level Encoder Outputs(CAMO,基于多层级编码器输出的交叉注意力)模块,该模块用于增强来自编码器多层级(Multi-level)的编码输出。在原始Transformer架构中,有N个编码器层;每一层将前一层的输出作为输入,并继续学习高层潜在空间。通常,只有最后一个编码器的最终输出
我们选择了八种基于Transformer的图像描述先进模型来评估它们在UIT-OpenViIC数据集上的性能:Transformer、ORT、M2 Transformer、RSTNet、DLCT、DIFNet、MDSANet。Transformer是由Vaswani等人提出的标准Transformer架构。ORT是首个使用边界框坐标作为辅助信息的研究,以更好地指导自注意力(Self-Attention)机制。M2 Transformer实现了使用所有
在本研究中,我们介绍了UIT-OpenViIC数据集,这是首个包含与越南语境相关的开放域图像的越南语数据集,同时也是越南语数据集中图像-描述对数量最多的。此外,我们提出了基于多层级编码器输出的交叉注意力(CAMO)方法,以增强Transformer编码器产生的高层特征质量。通过实验,我们证明我们的方法是有效的,并且能够提升
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号