
-
生物通官微
陪你抓住生命科技
跳动的脉搏
用于基于文本的视觉问答中层次化语义推理的级联变换器
《ACM Transactions on Intelligent Systems and Technology》:Cascade Transformer for Hierarchical Semantic Reasoning in Text-Based Visual Question Answering
【字体: 大 中 小 】 时间:2025年11月08日 来源:ACM Transactions on Intelligent Systems and Technology
编辑推荐:
文本驱动的视觉问答中现有方法过度依赖OCR精度而忽视视觉对象,本文提出CT-HSR模型,通过跨模态Transformer获取视觉语言表征,设计统一编码模块增强视觉对象与OCR文本的语义关联,采用特征过滤降低跨模态噪声,并引入预训练任务优化多模态对齐,最终在TextVQA、ST-VQA和OCR-VQA数据集上显著优于SOTA方法。
生物通微信公众号
知名企业招聘