DeepJiandu 数据集:开启简牍文字识别研究新征程

【字体: 时间:2025年03月08日 来源:Scientific Data 5.8

编辑推荐:

  研究人员构建 DeepJiandu 数据集用于简牍文字检测与识别,为简牍研究提供关键数据支持1213

  # DeepJiandu 数据集:简牍文字识别研究的新突破
在纸张尚未广泛使用的古代中国,简牍(“Jiandu”)作为记录历史的重要载体,承载着丰富的文化内涵与历史信息。从战国时期到魏晋时代,简牍在知识传承、文化传播中扮演着关键角色,是中华文明发展历程中的重要见证者。然而,时光流转,这些珍贵的文物面临着诸多挑战。由于其材质的特殊性,简牍极易受损,岁月侵蚀、保存环境不佳等因素使得上面的文字变得模糊不清,部分甚至残缺不全。同时,不同时期、不同书写者的习惯差异,导致简牍文字布局多样、形态各异,给识别工作带来了极大的困难。以往依赖专家人工解读的方式,不仅耗时费力,还难以满足大规模研究的需求。在人工智能和深度学习蓬勃发展的当下,如何利用先进技术实现简牍文字的高效识别,成为了亟待解决的问题。
为了攻克这一难题,西北师范大学联合甘肃省简牍博物馆等机构的研究人员展开了深入研究。他们致力于构建一个专门用于简牍文字检测和识别的数据集,旨在推动简牍研究的数字化进程,让这些沉睡千年的历史资料重新 “发声”。最终,他们成功创建了 DeepJiandu 数据集,这一成果发表在《Scientific Data》上,为相关领域的研究带来了新的曙光。

在研究过程中,研究人员运用了多种关键技术方法。首先,采用先进的高光谱成像技术(hyperspectral imaging technique),结合可见光摄影获取 RGB 图像、红外扫描获取红外数字图像,利用简牍材质和墨水对红外光的独特吸收特性,更清晰地展现文字细节,从而选择红外图像构建数据集。其次,运用 LabelImg 工具进行字符标注,与简牍专家合作,确保标注的准确性和专业性。最后,通过分层抽样策略将数据集划分为训练集、测试集和验证集,以便后续模型训练和评估347

一、数据集构建


研究人员扫描了超过 10,000 件简牍文物,最终获得 7,416 件简牍红外数字图像。这些图像经过数据筛选、清洗、降噪、增强等预处理步骤,去除异常图像、裁剪背景、降低噪声并增强文字特征,使其更适合后续分析。在标注环节,组建了由简牍专家和具备计算机专业知识人员构成的专业团队,运用 LabelImg 工具,对图像中的文字进行精确标注,共标注了 99,852 个简牍文字,涵盖 2,242 个类别。之后,根据图像清晰度和字符布局等标准,采用 8:1:1 的分层抽样比例,将数据集划分为训练集(5,922 张图像)、测试集(743 张图像)和验证集(751 张图像)567

二、数据集特性分析


对数据集的图像分辨率、宽高比等进行分析发现,简牍图像大多窄而高,宽高比多低于 0.5,但也存在部分宽幅或横向布局的图像。字符类别分布呈现长尾现象,像 “□”“月”“十” 等字符出现频率较高,而 “媼”“螯”“獒” 等极为罕见。此外,字符的边界框尺寸变化较大,反映出简牍文字多尺度的特点,这对基于深度学习的字符检测和识别模型提出了挑战8910

三、模型评估


研究人员选用多种先进的字符检测和识别模型对 DeepJiandu 数据集进行评估。在字符检测方面,包括 DBNet、DBNet++、Mask - RCNN 等模型;字符识别方面,选择了 ResNet - 18、ResNet - 50、MobileNetV3 等模型。实验结果显示,不同模型在该数据集上表现各异。例如,DBNet 和 DBNet++ 借助预训练模型,获得了较好的检测指标;而 PSENet 在简牍字符检测上效果欠佳。在字符识别方面,CSPNet 表现突出,ResNet - 18 则因架构相对较浅,特征提取能力有限,表现相对较弱111214

DeepJiandu 数据集的成功构建意义重大。它为简牍文字识别研究提供了宝贵的数据资源,填补了相关领域缺乏综合性公开数据集的空白。通过该数据集,研究人员能够更深入地探索简牍文字的奥秘,推动简牍研究的数字化进程。同时,也为深度学习模型在历史文献文字识别领域的应用提供了实践基础,有助于开发更高效、精准的文字识别技术。然而,研究人员也指出,该数据集存在样本模糊、变形、不完整以及样本分布不均衡等问题,未来需要进一步优化网络架构、改进训练方法并合理利用预训练模型,以提升字符检测和识别的准确性与鲁棒性。相信随着研究的不断深入,DeepJiandu 数据集将在简牍研究乃至整个历史文献数字化领域发挥更大的作用,让更多人领略到古代文明的魅力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号