
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于关键区域语义增强Transformer的图像描述生成方法研究
【字体: 大 中 小 】 时间:2025年09月08日 来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
本文提出了一种创新性图像描述生成方法KSAT(Key region Semantic information Augmented Transformer),通过挖掘关键区域语义信息(Faster R-CNN检测)和自适应门控机制改进Transformer解码器,在MSCOCO数据集上取得CIDEr 139.6%的优异表现,解决了传统网格特征(grid features)难以建模物体空间关系的难题。
Highlight
• 提出关键区域语义信息挖掘模块,通过空间邻近性和高频共现识别关键区域(Faster R-CNN),补偿网格特征(grid features)在物体关系建模的缺陷
• 创新性改进Transformer解码器架构,引入动态调整图文对齐的自适应门控机制(adaptive gating mechanism)
• 提出的KSAT模型在MSCOCO数据集离线测试中CIDEr得分达139.6%,显著优于现有方法
Methodology
当用单句描述图像时,人类通常从显著关键区域逐步扩展到全局语境。受此启发,我们提出KSAT模型,其四大模块包括:
1)视觉编码器:采用ResNet-101提取网格特征
2)关键区域挖掘:基于空间重叠度>0.5且共现频率TOP10%的物体对划定关键区域
3)语义增强模块:通过图注意力网络(GAT)建模区域间语义关联
4)自适应解码器:门控权重公式γ=σ(Wg[ht;vi])动态平衡视觉-文本特征
Dataset
实验采用包含12万张图像的MSCOCO数据集("Karpathy"划分标准),涵盖室内外复杂场景,测试时使用官方评估工具包验证CIDEr、BLEU-4等指标。
Conclusion
本研究通过显式注入关键区域语义信息,显著提升描述生成质量。消融实验表明:仅使用网格特征时CIDEr下降9.8%,而移除门控机制会导致细粒度物体遗漏率增加23%。未来将探索多模态预训练(如CLIP)与KSAT的融合。
生物通微信公众号
知名企业招聘