"Dongba1800:首个纳西族东巴经单字符检测数据集的构建与多模型验证"

【字体: 时间:2025年07月02日 来源:Scientific Data 5.8

编辑推荐:

  本研究针对纳西族东巴文字检测难题,开发了包含1,800张图像、111,702个字符的"Dongba1800"数据集。团队采用多顶点标注策略(PPOCRLabel),通过DBNet++、TextBPN++等12种模型验证,最终Mask RCNN以89.50% F1-score表现最优。该数据集为濒危文字数字化保护提供了关键技术支持,相关成果发表于《Scientific Data》。

  

在云南丽江的崇山峻岭间,纳西族人世代守护着一种神秘的图画文字——东巴文。这种被称为"文字活化石"的书写系统,记录了纳西族的历史、宗教与智慧,现存3万余卷经书分散在全球各地。然而,这些珍贵的东巴经正面临严峻挑战:手工制作的树皮纸张易脆化褪色,不同祭司的书写风格差异显著,加之字符形态复杂多变(平均每页含62个非规则排列的象形文字),使得传统研究方式效率低下。

为解决这一难题,西南大学计算机与信息科学学院联合重庆城市管理职业学院的研究团队,历时33天构建了首个东巴文单字符检测专用数据集"Dongba1800"。该研究从哈佛燕京图书馆获取1,800张经书图像(分辨率1200×416至1201×530),采用创新性的自适应标注方法——对规则字符使用四点矩形标注,复杂字符则采用多顶点多边形标注(最多14个坐标点),最终完成111,702个字符的精确标注。相关成果已发表于《Scientific Data》期刊。

关键技术方法包括:1)基于PPOCRLabel的多模态标注工具;2)7种深度学习模型(如DBNet++、TextBPN++)与5种传统算法(MSER、Canny等)的对比验证;3)采用PyTorch框架在NVIDIA RTX 3080 Ti显卡上训练,使用Poly学习率衰减策略(初始值0.001)优化40个epoch。

数据记录
数据集包含图像与TXT标注文件,采用"image_<序号>.jpg"和"gt_image_<序号>.txt"的命名规则。标注信息包含字符多边形顶点坐标(如"161,59,202,57..."),以"###"分隔不同记录。特别设置了文化敏感性声明,要求使用者尊重纳西族文化特性。

技术验证
实验显示:传统方法中Canny算法表现最佳(F1-score 42.28%),而深度学习方法显著提升检测精度。具体而言:

  • DBNet++通过可微分二值化实现89.36% F1-score
  • TextBPN++利用边界提议网络达到87.93%
  • Mask RCNN凭借实例分割优势以89.50% F1-score夺冠
    值得注意的是,模型对书写风格差异大的样本(如约瑟夫·洛克收集的510卷经书)识别率较低,反映出数据多样性的挑战。

可视化分析


对比结果显示:传统方法(如Sobel)仅能识别规则笔画,而深度学习方法能有效捕捉复杂字符形态。其中PSENet对粘连字符分割效果突出,但存在5.3%的误检率;FCENet虽能处理弯曲文本,但对褪色字符敏感(召回率仅65.60%)。

这项研究创建了迄今最完善的东巴文检测数据集,为濒危文字数字化建立了新标准。其创新性体现在:1)首创针对象形文字的多顶点标注规范;2)验证了深度学习在非字母文字检测中的适应性;3)为UNESCO"世界记忆遗产"的保护提供了可复用的技术框架。未来工作将聚焦于跨时代经书的风格迁移算法开发,以进一步提升模型泛化能力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号