用于基于文本的视觉问答中层次化语义推理的级联变换器

《ACM Transactions on Intelligent Systems and Technology》:Cascade Transformer for Hierarchical Semantic Reasoning in Text-Based Visual Question Answering

【字体: 时间:2025年11月08日 来源:ACM Transactions on Intelligent Systems and Technology

编辑推荐:

  文本驱动的视觉问答中现有方法过度依赖OCR精度而忽视视觉对象,本文提出CT-HSR模型,通过跨模态Transformer获取视觉语言表征,设计统一编码模块增强视觉对象与OCR文本的语义关联,采用特征过滤降低跨模态噪声,并引入预训练任务优化多模态对齐,最终在TextVQA、ST-VQA和OCR-VQA数据集上显著优于SOTA方法。

  

摘要

基于文本的视觉问答(TextVQA)旨在通过理解图像中的场景文本来回答问题。然而,许多现有方法过度依赖OCR系统的准确性,而忽视了视觉对象的重要性。当问题涉及视觉对象与场景文本之间的关系时,这些方法的性能往往较差。为了解决上述问题,我们提升了视觉对象的重要性,并创新性地提出了一种基于级联变换器架构的分层语义推理网络(CT-HSR),实现了细粒度的跨模态推理和视觉语义增强。具体而言,首先通过基于跨模态变换器的视觉-语言预训练模型获得包含问题模态丰富语义信息的视觉表示。然后,利用单模态变换器进行统一模态编码,以捕捉与OCR文本语义关联更紧密的视觉对象。此外,我们通过特征过滤策略进一步减轻了跨模态噪声的干扰。最后,通过引入TextVQA预训练任务来更好地对齐三种模态,并在微调过程中通过多步迭代预测生成预测答案。在TextVQA、ST-VQA和OCR-VQA数据集上的广泛实验表明,我们提出的模型相较于现有最先进方法具有更好的性能。代码将在https://github.com/FTFWO/CT-HSR上发布。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号