用于基于文本的视觉问答中层次化语义推理的级联变换器

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Intelligent Systems and Technology》：Cascade Transformer for Hierarchical Semantic Reasoning in Text-Based Visual Question Answering

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Intelligent Systems and Technology

编辑推荐：

　　文本驱动的视觉问答中现有方法过度依赖OCR精度而忽视视觉对象，本文提出CT-HSR模型，通过跨模态Transformer获取视觉语言表征，设计统一编码模块增强视觉对象与OCR文本的语义关联，采用特征过滤降低跨模态噪声，并引入预训练任务优化多模态对齐，最终在TextVQA、ST-VQA和OCR-VQA数据集上显著优于SOTA方法。

摘要

基于文本的视觉问答（TextVQA）旨在通过理解图像中的场景文本来回答问题。然而，许多现有方法过度依赖OCR系统的准确性，而忽视了视觉对象的重要性。当问题涉及视觉对象与场景文本之间的关系时，这些方法的性能往往较差。为了解决上述问题，我们提升了视觉对象的重要性，并创新性地提出了一种基于级联变换器架构的分层语义推理网络（CT-HSR），实现了细粒度的跨模态推理和视觉语义增强。具体而言，首先通过基于跨模态变换器的视觉-语言预训练模型获得包含问题模态丰富语义信息的视觉表示。然后，利用单模态变换器进行统一模态编码，以捕捉与OCR文本语义关联更紧密的视觉对象。此外，我们通过特征过滤策略进一步减轻了跨模态噪声的干扰。最后，通过引入TextVQA预训练任务来更好地对齐三种模态，并在微调过程中通过多步迭代预测生成预测答案。在TextVQA、ST-VQA和OCR-VQA数据集上的广泛实验表明，我们提出的模型相较于现有最先进方法具有更好的性能。代码将在https://github.com/FTFWO/CT-HSR上发布。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号