面向文本视觉问答与图像描述的OCR容错多模态对齐方法研究

【字体: 时间:2025年08月30日 来源:Pattern Recognition 7.6

编辑推荐:

  【编辑推荐】本研究针对OCR系统在Text-VQA和Text-Caption任务中的拼写错误问题,提出创新的Token-Word Alignment(TWA)方法,通过模拟OCR错误增强(Token-Aug)、文本渲染(TRM)和对比学习(TWC)模块,显著提升模型对错误文本的语义恢复能力,为视觉-语言跨模态推理提供新范式。

  

Highlight

我们强调OCR字符错误在文本视觉任务中的不可避免性,并提出鲁棒的多模态OCR词符对齐(TWA)方法,显著提升系统在OCR错误条件下的文本推理能力。

关键贡献

  1. 1.

    提出模拟OCR错误的词符增强模块(Token-Aug),通过字符扰动和开放词典替换生成逼真错误样本;

  2. 2.

    创新文本渲染模块(TRM),将OCR文本与增强文本投射到空白RGB图像,利用像素级语言编码器缩小语义鸿沟;

  3. 3.

    设计词符-单词对比学习(TWC)任务,即使存在拼写错误也能实现语义对齐;

  4. 4.

    开发字符级语义匹配的词汇预测器,从错误词符中准确恢复目标单词。

Conclusion

本研究突破传统OCR依赖局限,通过TWA方法实现三大创新:人工构造错误词符增强数据多样性、对比学习构建容错表征、字符级匹配实现词汇精准恢复。实验证明该方法在Text-VQA和Text-Caption任务中显著优于现有技术,为视觉文本理解提供错误鲁棒性新方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号