用于信德语文本识别的端到端、具有上下文感知能力的深度学习流程

《Expert Systems with Applications》:End-to-end contextual-aware deep learning pipeline for Sindhi text recognition

【字体: 时间:2026年01月04日 来源:Expert Systems with Applications 7.5

编辑推荐:

  Sindhi光学字符识别面临复杂字体和视觉相似问题,本文提出SOCR模型结合视觉Transformer和文本Transformer,通过合成数据集SWD和STLD以及真实打印数据集RW-Sindhi验证,在字级和文本级准确率分别达到94.89%和90.63%(合成数据)及88.04%和83.12%(真实数据),显著优于基线方法。

  
沙希德·阿里|田汉高|朱志晨|马库苏德·艾哈迈德
中国沈阳东北大学软件学院,邮编110004

摘要

信德语是印度河流域下游的一种古老语言,拥有丰富的文学历史。其复杂的排版和连字结构给光学字符识别(OCR)带来了巨大挑战。现有的信德语OCR方法主要依赖于无上下文的方法(例如仅使用卷积神经网络(CNN)的模型),这些方法直接从图像特征进行预测,而不解决视觉预测与语义上下文之间的差异,导致在识别视觉上相似且模糊的单词时出现错误。为了克服这些限制,我们提出了信德语光学字符识别器(SOCR),这是一个基于视觉变换器(Vision Transformer)和文本变换器(Text Transformer)的端到端、具备上下文感知能力的深度学习框架,用于印刷信德语文本的识别。视觉变换器从图像特征生成初步预测,而文本变换器则通过语义上下文对这些预测进行精细化处理。此外,我们引入了两个大规模的多字体合成数据集:SWD(包含1030万张单词图像)和STLD(包含4720万张文本行图像),这些数据集使用了五种广泛采用的信德语字体生成。另外,还包含了一个印刷数据集(RW-Sindhi),包含2万个单词级别的图像和1.7万个文本行图像,用于评估模型在现实世界条件下的性能。该模型在合成数据和印刷数据集上进行了评估,并与最先进的架构进行了比较。结果表明,SOCR的表现优于其他模型,在合成数据集上的单词级别准确率为94.89%,文本行准确率为90.63%;在印刷数据集上的单词级别准确率为88.04%,文本行准确率为83.12%。值得注意的是,SOCR在合成数据集上的字符错误率和单词错误率分别比基线模型(TrOCR)低1.14%和1.91%,在印刷数据集上低2.42%和2.49%,为信德语OCR在印刷和多字体合成数据集上树立了新的基准。

引言

OCR是一种将文本数据的图像(无论是输入的、手写的还是印刷的)转换为机器可编辑格式的过程(Davis和Lyall,1986;Plamondon和Srihari,2000)。OCR可以通过基于分割的方法和无分割的方法来开发。基于分割的方法涉及将图像分割成单个字符或连字图像(Alrehali等人,2020;Osman等人,2020;Wan等人,2020;Zhao等人,2022),然后分别对它们进行分类。无分割的方法则处理整个单词或文本行的图像,并在一次前向传递中生成字符序列,无需单独的分割(Atienza,2021;Chandio等人,2022;Fujitake,2024;Li等人,2022)。多年来,OCR研究采用了多种解决方案,从计算机视觉和机器学习技术(Arica和Yarman-Vural,2002;Chen等人,2004;Natarajan等人,1999;Natarajan等人,2001)到更先进的基于深度学习的方法(Atienza,2021;Fujitake,2024;Li等人,2022;Shi等人,2015;Zhu和Zhang,2021)。这些先进技术已被用于开发高精度的OCR系统,用于非草书语言,如英语、德语和法语(Gabay等人,2023;Mechi等人,2022;Str?bel等人,2023;Yadav等人,2023)。这些方法也显示出对具有类似信德语特征的语言(包括乌尔都语(Maqsood等人,2023;Nasir等人,2021;Yasin等人,2023)和阿拉伯语(Fasha等人,2020;Mortadi等人,2023;Mosbah等人,2024)的出色效果)。尽管取得了这些进展,信德语在OCR研究中的探索仍然不足。根据Ethnologue的数据,全球有5600万信德语使用者,但在OCR研究中,信德语仍是一种资源匮乏的语言。与阿拉伯语和乌尔都语等语言不同,信德语缺乏对开发强大OCR系统至关重要的公开可用、全面的数据集。由于信德语的书写风格是草书的,因此字符的形状会根据其位置及其与周围字符的关系而变化。不同的字体风格进一步改变了字母的视觉外观。此外,信德语中包含许多视觉上相似的单词,这些单词仅通过点数或连字的位置来区分。这些单词容易受到噪声、模糊或墨水渗漏的影响,从而导致区分点的不清晰或变形,从而产生歧义。此外,由于信德语的草书性质,分割只能在单词级别进行。信德语的这些复杂性为传统OCR技术识别印刷文档带来了许多障碍(Ali等人,2023;Chandio等人,2019;Nizamani等人,2019;Sanjrani等人,2022)。以往的研究在单词或字符级别生成了合成信德语数据集(Ali等人,2023;Chandio等人,2019;Chandio等人,2020;Kumari等人,2019)。然而,这些生成的数据集的词汇覆盖范围有限,且缺乏模拟印刷文档特征的具体数据增强技术。目前,没有公开可用的数据集支持OCR系统的端到端训练。此外,它们采用传统的图像处理方法进行信德语OCR(Ali等人,2019;Kumari等人,2019;Sanjrani等人,2016),这些方法包括多步骤处理,如图像二值化、手工特征提取以及使用K-最近邻(KNN)、支持向量机(SVM)或随机森林分类器进行分类。然而,这些算法由于在从图像中学习信德语单词的语言特征和全局上下文方面的能力有限,往往产生较差的结果。一些研究尝试通过基于CNN的方法(Ali等人,2023;Chandio等人,2019;Chandio等人,2020)来改进信德语OCR,例如使用ResNet和VGGNet对单个单词和字符进行分类。尽管如此,基于CNN的方法在捕捉更广泛的上下文知识和全局上下文方面存在局限性,而这对于准确识别草书语言至关重要。
为了解决这些限制,本研究做出了以下关键贡献,以填补研究空白:
  • 我们提出了一种数据流程,用于从文本语料库中模拟和生成多样化的合成信德语图像数据集。通过使用多种字体渲染文本并应用各种数据增强技术,我们的数据集能够紧密模拟印刷文档的特性。
  • 我们提供了两个用于信德语文本识别的合成图像数据集:信德语单词数据集(SWD)和信德语文本行数据集(STLD),这些数据集包含了丰富的语言示例和多种字体风格。据我们所知,这些是目前可用于信德语OCR的最大数据集。此外,我们还提供了一个印刷数据集(RW-Sindhi),用于在现实世界条件下进行评估。
  • 我们介绍了信德语光学字符识别器(SOCR)模型,该模型结合了视觉变换器和文本变换器。这种双架构方法使模型能够在保留局部特征的同时捕捉全局上下文,通过并行处理学习序列中的上下文关系。因此,SOCR模型能够以端到端的方式准确识别印刷信德语文本。
  • 我们将我们提出的模型与最先进的算法在印刷和合成数据集上的性能进行了比较。结果显示,我们的模型在准确性和推理速度方面都表现更优,证明了其在实际应用中的强大适应性。
  • 相关工作

    已经进行了大量研究,以改进非草书语言(如英语、德语和中文)的OCR系统。这些语言在OCR方面取得了显著进步,这得益于复杂深度学习技术和大规模数据集的有效应用。相比之下,很少有研究关注信德语OCR,大多数研究依赖于仅在包含单个字符或个别字符的小数据集上训练和评估的传统机器学习技术。

    SWD和STLD信德语数据集

    在本节中,我们介绍了两个用于识别印刷信德语文本的合成数据集:SWD和STLD,它们包含多样化的材料和字体,适用于实时识别印刷文档中的信德语文本。第3.1节解释了模拟真实世界印刷文档的数据流程,而第3.2节提供了结果数据集的统计信息。

    提出的模型

    在本节中,我们提出了用于信德语文本识别的SOCR架构,该架构基于TrOCR(Li等人,2022)的基本原理。虽然受到TrOCR通用编码器-解码器设计的启发,但SOCR引入了重要的修改,以提高对草书和带重音符号丰富的信德语文本的理解。所提出的模型采用了两阶段训练策略。首先,独立训练视觉变换器,以从图像中学习视觉表示

    实验设置

    本节介绍了第4节描述的方法论得出的实验设置。在本研究中,使用了两个大规模数据集进行信德语语言的印刷文档OCR,涵盖了单词和文本两个层面。通过结合多种字体和各种数据增强技术,这些数据集捕捉了广泛的排版变化和失真。这种多样性可以提高OCR模型的鲁棒性,使它们能够更好地泛化并表现得更优秀

    多字体OCR性能

    为了评估所提出的SOCR模型在不同字体风格下的OCR性能,表3提供了SWD和STLD上单词和文本级别识别准确性的全面分析。结果表明,该模型在印刷文档识别方面具有最先进的能力,无论是在处理结构简单还是复杂的字体方面都表现出色。例如,在单词级别,结构较简单的字体(如MB Sindhi Web和MB SABERL(图2)取得了最高的

    结论与未来工作

    在这项研究中,我们提出了一个名为SOCR的端到端深度学习框架,它整合了视觉变换器和文本变换器用于信德语文本识别。该模型能够准确捕捉视觉和语义表示,即使在涉及图像噪声或视觉模糊的具有挑战性的条件下,也能解决视觉预测与语义上下文之间的差异。实验评估表明,SOCR显著优于现有的无上下文方法

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能会影响本文报告的工作。

    致谢

    本工作得到了国家自然科学基金(编号52130403)和111项目(编号B1600)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 急聘职位
    • 高薪职位

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号