UIT-OpenViIC：越南语开放域图像描述基准数据集与多层级编码器输出融合方法CAMO的提出

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Signal Processing: Image Communication》：UIT-OpenViIC: An open-domain benchmark for evaluating image captioning in Vietnamese

【字体：大中小】 时间：2025年11月02日 来源：Signal Processing: Image Communication 3.4

编辑推荐：

　　本文介绍了首个针对越南语的大规模开放域图像描述（Image Captioning, IC）基准数据集UIT-OpenViIC，该数据集包含大量具有越南本土文化背景的图像，并由人工严格标注。研究通过评估多种基于Transformer的先进模型（如M2 Transformer、RSTNet等），证明该数据集在视觉和语言层面均具挑战性。同时，作者提出CAMO（Cross-Attention on Multi-level Outputs）方法，通过自注意力机制融合编码器多层级输出，有效提升了生成描述的CIDEr评分。本研究为低资源语言（如越南语）的视觉-语言任务提供了重要基准和方法创新。

Highlight

常见基准数据集

Flickr30K。Flickr30k数据集及其前身Flickr8k是最早被提出用于评估图像描述（Image Captioning）任务的数据集之一。Flickr系列数据集包含从Flickr平台收集的关于日常活动、场景和事件的图像（Flickr8k有8,092张图像，Flickr30k有31,783张图像），其关联的描述通过众包获得。对于Flickr30k数据集中的每张图像，标注者需要至少标注五个描述。在所有图像标注完成后，

数据集创建过程

首先，我们主要使用越南语关键词从谷歌（Google）和必应（Bing）抓取图像。之后，我们过滤掉一些不包含足够信息以供描述的重复图像。最终筛选出的图像数量为13,100张。然后，我们将它们分成十个子集；每个子集包含1,310张图像。在标注方面，我们有一个由信息科技大学软件工程学院的51名在校学生组成的团队。这51名学生被分成

CAMO：基于多层级编码器输出的交叉注意力

为了在使用基于Transformer的模型时提升我们UIT-OpenViIC数据集中生成描述的质量，我们提出了Cross-Attention on Multi-level Encoder Outputs（CAMO，基于多层级编码器输出的交叉注意力）模块，该模块用于增强来自编码器多层级（Multi-level）的编码输出。在原始Transformer架构中，有N个编码器层；每一层将前一层的输出作为输入，并继续学习高层潜在空间。通常，只有最后一个编码器的最终输出

基线方法

我们选择了八种基于Transformer的图像描述先进模型来评估它们在UIT-OpenViIC数据集上的性能：Transformer、ORT、M² Transformer、RSTNet、DLCT、DIFNet、MDSANet。Transformer是由Vaswani等人提出的标准Transformer架构。ORT是首个使用边界框坐标作为辅助信息的研究，以更好地指导自注意力（Self-Attention）机制。M² Transformer实现了使用所有

结论

在本研究中，我们介绍了UIT-OpenViIC数据集，这是首个包含与越南语境相关的开放域图像的越南语数据集，同时也是越南语数据集中图像-描述对数量最多的。此外，我们提出了基于多层级编码器输出的交叉注意力（CAMO）方法，以增强Transformer编码器产生的高层特征质量。通过实验，我们证明我们的方法是有效的，并且能够提升

热点排行

新闻专题

联系信箱：

粤ICP备09063491号