面向文本视觉问答与图像描述的OCR容错多模态对齐方法研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月30日 来源：Pattern Recognition 7.6

编辑推荐：

　　【编辑推荐】本研究针对OCR系统在Text-VQA和Text-Caption任务中的拼写错误问题，提出创新的Token-Word Alignment（TWA）方法，通过模拟OCR错误增强（Token-Aug）、文本渲染（TRM）和对比学习（TWC）模块，显著提升模型对错误文本的语义恢复能力，为视觉-语言跨模态推理提供新范式。

Highlight

我们强调OCR字符错误在文本视觉任务中的不可避免性，并提出鲁棒的多模态OCR词符对齐（TWA）方法，显著提升系统在OCR错误条件下的文本推理能力。

关键贡献

1.
提出模拟OCR错误的词符增强模块（Token-Aug），通过字符扰动和开放词典替换生成逼真错误样本；
2.
创新文本渲染模块（TRM），将OCR文本与增强文本投射到空白RGB图像，利用像素级语言编码器缩小语义鸿沟；
3.
设计词符-单词对比学习（TWC）任务，即使存在拼写错误也能实现语义对齐；
4.
开发字符级语义匹配的词汇预测器，从错误词符中准确恢复目标单词。

Conclusion

本研究突破传统OCR依赖局限，通过TWA方法实现三大创新：人工构造错误词符增强数据多样性、对比学习构建容错表征、字符级匹配实现词汇精准恢复。实验证明该方法在Text-VQA和Text-Caption任务中显著优于现有技术，为视觉文本理解提供错误鲁棒性新方案。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号