UnMA-CapSumT:基于统一多头注意力机制的图像描述摘要Transformer模型及其在跨模态语义生成中的应用

【字体: 时间:2025年10月13日 来源:Journal of Visual Communication and Image Representation 3.1

编辑推荐:

  本综述提出了一种创新的统一多头注意力驱动图像描述摘要Transformer(UnMA-CapSumT)框架,通过整合事实性描述(MAA-FIC)与风格化描述(SF-Bi-ALSTM),结合指针生成器网络与覆盖机制,有效解决了图像描述生成中的词汇外(OOV)和重复性问题,为多风格图像语义生成提供了突破性解决方案。

  
Highlight
本研究通过UnMA-CapSumT框架实现了图像描述生成与文本摘要的融合创新,首次将事实性描述与浪漫/幽默风格描述进行统一摘要生成,在解决OOV问题和重复性问题上取得突破性进展。
Related works
本节系统回顾了事实性图像描述、风格化图像描述与文本摘要领域的技术发展。传统模型通常将事实性与风格化输出分离,导致描述单一化问题。而文本摘要技术虽能处理多源输入,但面临罕见词处理和语义连贯性挑战。
Proposed work
如Fig. 2所示,本框架采用两阶段架构:第一阶段通过MAA-FIC模型生成事实性描述,通过SF-Bi-ALSTM模型生成浪漫/幽默风格描述;第二阶段通过UnMHA-STTransformer对多风格描述进行协同摘要,创新性地融合了注意力增强的fastText词嵌入(fTA-WE)与指针生成器网络,形成端到端的多风格描述摘要流水线。
Results and Discussions
在Flickr8K和FlickrStyle10K子集上的实验表明,UnMA-CapSumT在BLEU和ROUGE指标上显著优于基线模型。消融研究证实:fTA-WE词嵌入使OOV词处理准确率提升37%,覆盖机制使重复现象减少63%。多头注意力模块有效捕获了跨模态的语义依赖关系。
Conclusion
UnMA-CapSumT框架通过双阶段架构实现了多风格图像描述的统一摘要,其创新点在于:1)融合事实性与风格化描述生成模块 2)采用带覆盖机制的指针生成器解决OOV问题 3)注意力增强的词嵌入提升语义表征能力。该框架为多模态语义生成提供了新范式。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号