基于关键区域语义增强Transformer的图像描述生成方法研究

【字体: 时间:2025年09月08日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  本文提出了一种创新性图像描述生成方法KSAT(Key region Semantic information Augmented Transformer),通过挖掘关键区域语义信息(Faster R-CNN检测)和自适应门控机制改进Transformer解码器,在MSCOCO数据集上取得CIDEr 139.6%的优异表现,解决了传统网格特征(grid features)难以建模物体空间关系的难题。

  

Highlight

• 提出关键区域语义信息挖掘模块,通过空间邻近性和高频共现识别关键区域(Faster R-CNN),补偿网格特征(grid features)在物体关系建模的缺陷

• 创新性改进Transformer解码器架构,引入动态调整图文对齐的自适应门控机制(adaptive gating mechanism)

• 提出的KSAT模型在MSCOCO数据集离线测试中CIDEr得分达139.6%,显著优于现有方法

Methodology

当用单句描述图像时,人类通常从显著关键区域逐步扩展到全局语境。受此启发,我们提出KSAT模型,其四大模块包括:

1)视觉编码器:采用ResNet-101提取网格特征

2)关键区域挖掘:基于空间重叠度>0.5且共现频率TOP10%的物体对划定关键区域

3)语义增强模块:通过图注意力网络(GAT)建模区域间语义关联

4)自适应解码器:门控权重公式γ=σ(Wg[ht;vi])动态平衡视觉-文本特征

Dataset

实验采用包含12万张图像的MSCOCO数据集("Karpathy"划分标准),涵盖室内外复杂场景,测试时使用官方评估工具包验证CIDEr、BLEU-4等指标。

Conclusion

本研究通过显式注入关键区域语义信息,显著提升描述生成质量。消融实验表明:仅使用网格特征时CIDEr下降9.8%,而移除门控机制会导致细粒度物体遗漏率增加23%。未来将探索多模态预训练(如CLIP)与KSAT的融合。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号