基于深度学习的非重叠古籍书页图像拼接方法研究及其在文化遗产数字化中的应用

【字体: 时间:2025年07月23日 来源:Computer Vision and Image Understanding 4.3

编辑推荐:

  针对古籍书页无重叠区域导致的拼接难题,研究团队创新性地提出基于语义分割的深度学习框架,通过厚度掩模预测(MPS模块)和自评估模块实现82.18%的准确率,较现有方法提升37.75%,为古籍数字化提供关键技术支撑。

  

古籍作为中华文明的重要载体,其数字化保护面临独特挑战。传统线装古籍采用"包背装"装帧方式,左右书页在装订时沿中缝(Front edge)对折,导致扫描图像存在非重叠区域,这使得依赖重叠区域匹配的常规图像拼接技术(如SIFT、ORB算法)完全失效。更棘手的是,古籍页面常出现文本跨缝排版、纸张变形和垂直错位等问题,人工拼接效率低下且易损伤文物。据文献记载,现有方法在无重叠区域的古籍图像处理中准确率不足45%,严重制约《永乐大典》等珍贵典籍的数字化进程。

为突破这一技术瓶颈,来自国内研究机构的团队在《Computer Vision and Image Understanding》发表创新成果。研究人员设计了三阶段解决方案:首先采用语义分割模型(UNet架构)精确提取书页厚度边缘;随后开发多规则拼接模块(MPS),整合全局特征对齐(GFDM)和局部特征优化(LKFC)两种算法;最后引入基于评估矩形面积的自评估机制自动优选拼接结果。实验采用宁波天一阁博物馆提供的真实古籍数据,包含7800×10000高分辨率图像。

【关键技术方法】
研究运用深度学习框架,通过语义分割定位书页边界,采用GFDM全局对齐和LKFC局部优化双路径处理非重叠图像,创新性设计自评估模块量化文本跨缝对齐度。数据集包含3种古籍140余页扫描图像,预处理后分辨率达6500×6200。

【研究结果】

  1. 厚度边缘分割:UNet模型在厚度边缘分割任务中达到98.7%的mIoU,显著优于传统Harris角点检测方法
  2. 多规则拼接:GFDM全局对齐使AOS(Alignment Accuracy Score)提升38.55%,结合LKFC后综合准确率达82.18%
  3. 自评估机制:通过分析跨缝文本的评估矩形面积,成功识别最优拼接结果的准确率为91.2%

【结论与意义】
该研究首次实现非重叠古籍书页的自动化拼接,准确率突破性提升37.75%。MPS模块的GFDM算法有效解决垂直错位问题,自评估机制在无ground truth情况下实现91.2%的优选准确率。这项技术已应用于天一阁藏本数字化工程,为《国家古籍数字化工程》提供关键技术支撑,对甲骨文等脆弱文物数字化具有重要推广价值。未来研究将聚焦于复杂破损页面的自适应修复算法开发。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号