编辑推荐:
为解决古埃塞俄比亚格埃兹(Ge’ez)手稿数字化及字符识别难题,研究人员开展基于深度卷积神经网络(DCNN)的 OCR 系统研究。通过对比多种算法,发现 DCNN 识别准确率达 93.52%,为古手稿保护与信息检索提供技术支撑。
古埃塞俄比亚的格埃兹(Ge’ez)语言承载着丰富的历史文化,其手稿作为宗教和学术的重要载体,却因年代久远面临纸张老化、墨水褪色等问题,导致字符识别困难。传统光学字符识别(OCR)系统难以应对格埃兹脚本的复杂结构,如 231 个字符的形态多样性、手写风格差异及文档图像退化等挑战,使得这些珍贵文献的数字化和信息检索工作进展缓慢。如何利用先进技术实现古手稿的高效识别与保护,成为亟待解决的文化传承与技术难题。
为攻克上述难题,来自埃塞俄比亚沃尔迪亚大学(Woldia University)、哈拉马亚大学(Haramaya University)和亚的斯亚贝巴大学(Addis Ababa University)的研究人员开展了 “Character recognition of ancient ethiopic Ge’ez manuscripts using deep convolutional neural networks” 的研究,相关成果发表在《Discover Imaging》。该研究旨在开发适用于格埃兹手稿的高精度 OCR 系统,为古文献的数字化保护与利用提供技术支持。
研究人员主要采用以下关键技术方法:首先通过 CamScanner 等工具以 300 dpi 分辨率扫描手稿获取图像,随后利用双边滤波(bilateral filtering)和大津法(Otsu’s thresholding)进行图像预处理,以降低噪声并实现二值化;采用边界框算法(bounding box algorithm)完成图像分割,将字符归一化为 32×32 像素;基于深度卷积神经网络(DCNN)架构,结合 ResNet50、VGG19 等预训练模型及卷积神经网络 - 支持向量机(CNN-SVM)进行特征提取与分类,通过 20,200 个样本的训练与测试,评估模型性能。
研究结果
预处理算法筛选
测试了 4 种低通滤波算法(均值滤波、中值滤波、高斯滤波、双边滤波)和 4 种阈值算法(全局阈值、自适应阈值、Niblack 阈值、Sauvola 阈值)。结果表明,双边滤波以最低均方误差(MSE=0.087)和最高峰值信噪比(PSNR=38.90)实现最优去噪效果,大津法(MSE=0.086,PSNR=32.604)在二值化中表现最佳,为后续识别奠定基础。
不同模型性能对比
- DCNN 模型:通过 14 层卷积层设计,结合批量归一化和 dropout 技术,在 202 类字符识别中实现 93.52% 的准确率,F1 分数达 93%,展现出对复杂字符特征的强大捕捉能力。
- 预训练模型:ResNet50 和 VGG19 的验证准确率分别为 78.56% 和 78.04%,低于 DCNN,表明针对特定数据集的定制化模型更具优势。
- CNN-SVM 模型:准确率仅 48.75%,显示传统机器学习方法在处理高维特征时的局限性。
关键挑战与误差分析
研究发现,字符视觉相似性(如?与?、Λ 与 n)和文档图像退化导致的分割错误是主要误差来源。尽管如此,所构建的 DCNN 模型在 296 页手稿数据集上仍实现了 91.11% 的正确识别率(CRR),显著优于基于传统机器学习的现有方法。
结论与讨论
本研究成功开发了首个针对古格埃兹手稿的深度卷积神经网络识别系统,突破了传统 OCR 在复杂脚本中的性能瓶颈。通过数据增强和定制化模型设计,有效应对了字符多样性和手写变异的挑战,为古文献的数字化保护提供了可靠的技术方案。研究成果不仅有助于埃塞俄比亚文化遗产的长期保存与学术研究,也为其他濒危语言手稿的识别提供了可借鉴的技术路径。未来研究可进一步扩大数据集、优化分割算法,并纳入全部 231 个格埃兹字符,以提升系统的全面性和鲁棒性。该研究为跨学科融合解决文化遗产保护难题提供了范例,彰显了深度学习在人文领域的重要应用价值。