
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向文本视觉问答与图像描述的OCR容错多模态对齐方法研究
【字体: 大 中 小 】 时间:2025年08月30日 来源:Pattern Recognition 7.6
编辑推荐:
【编辑推荐】本研究针对OCR系统在Text-VQA和Text-Caption任务中的拼写错误问题,提出创新的Token-Word Alignment(TWA)方法,通过模拟OCR错误增强(Token-Aug)、文本渲染(TRM)和对比学习(TWC)模块,显著提升模型对错误文本的语义恢复能力,为视觉-语言跨模态推理提供新范式。
Highlight
我们强调OCR字符错误在文本视觉任务中的不可避免性,并提出鲁棒的多模态OCR词符对齐(TWA)方法,显著提升系统在OCR错误条件下的文本推理能力。
关键贡献
提出模拟OCR错误的词符增强模块(Token-Aug),通过字符扰动和开放词典替换生成逼真错误样本;
创新文本渲染模块(TRM),将OCR文本与增强文本投射到空白RGB图像,利用像素级语言编码器缩小语义鸿沟;
设计词符-单词对比学习(TWC)任务,即使存在拼写错误也能实现语义对齐;
开发字符级语义匹配的词汇预测器,从错误词符中准确恢复目标单词。
Conclusion
本研究突破传统OCR依赖局限,通过TWA方法实现三大创新:人工构造错误词符增强数据多样性、对比学习构建容错表征、字符级匹配实现词汇精准恢复。实验证明该方法在Text-VQA和Text-Caption任务中显著优于现有技术,为视觉文本理解提供错误鲁棒性新方案。
生物通微信公众号
知名企业招聘