"HYPERDOC:400-1700 nm高光谱历史文档与模拟样本数据集推动文化遗产材料鉴定研究"

【字体: 时间:2025年07月17日 来源:Scientific Data 5.8

编辑推荐:

  研究团队针对文化遗产领域材料鉴定难题,开发了首个覆盖400-1700 nm范围的高光谱历史文档数据集HYPERDOC。该数据集包含15-17世纪手稿、家谱等真实文献及模拟墨水样本,通过VNIR(400-1000 nm)和SWIR(900-1700 nm)双波段高光谱成像技术获取空间配准数据,并标注像素级材料真值。研究成功应用于机器学习墨水分类、光谱解混等方向,为文物保护提供了创新技术手段。

  

在文化遗产保护领域,历史文档作为人类文明的物质载体,其保存状况与材料鉴定始终是学术界的重要课题。传统RGB成像仅能获取三个颜色通道的信息,而自20世纪70年代发展起来的高光谱成像技术可捕获数百个光谱通道,从紫外到短波红外范围实现"光谱指纹"识别。然而当前公开数据集中,缺乏专门针对历史文档材料鉴定的高光谱资源,特别是涵盖多种墨水配方、支持介质及老化样本的系统性数据集。

针对这一技术空白,格拉纳达大学光学系色彩成像实验室(Color Imaging Laboratory, Department of Optics, University of Granada)的研究团队开展了HYPERDOC项目。他们创新性地构建了包含模拟样本和真实历史文档的高光谱数据集,相关成果发表在《Scientific Data》。该研究解决了文化遗产保护中墨水成分鉴定、老化过程监测等关键技术难题,为机器学习算法训练提供了标准化数据基础。

研究采用双波段高光谱成像系统进行数据采集:Pika L相机覆盖VNIR(400-1000 nm)范围,Pika IR+相机覆盖SWIR(900-1700 nm)范围。通过线性平移台实现推扫式成像,使用卤素灯照明并采用Teflon标准白板进行反射率校准。数据后处理包括空间配准、小区域(minicube)提取和半自动真值标注,最终形成包含282个样本的标准化数据集。

样本构成与制备

研究团队按13-17世纪历史配方制备了四类模拟墨水:金属胆酸盐墨水(含铁/铜/锌硫酸盐)、乌贼墨汁、碳基墨水及其混合物,并施加于棉麻混纺等五种历史常见载体。特别设计了人工老化实验组,通过80℃/65%RH加速老化舱和盐酸蒸汽两种方式模拟自然老化过程。真实文献样本来自格拉纳达皇家总理府档案馆的15-17世纪诉讼文件、家谱等,经SEM-EDX和XRF技术预先鉴定含有铁胆墨水与碳基墨水混合体系。

技术验证与应用

数据集已成功应用于多个研究方向:

  1. 墨水分类:结合VNIR-SWIR数据融合,机器学习模型对铁胆墨水、含碳墨水等三类区分准确率达90%以上

  2. 光谱解混:在碳基混合物中识别非碳组分时面临挑战,因其全波段低反射特性掩盖其他成分特征

  3. 二值化处理:Bradley算法在SWIR波段表现最优,显著提升古文献OCR识别率

  4. 老化分析:通过CIEDE00色差公式和RMSE指标量化人工老化过程的光谱演变规律

光谱特征分析

研究揭示了关键材料的光谱指纹:铁胆墨水在>1200 nm近红外区呈现载体透明度,而碳基墨水保持全波段强吸收。铅笔样本因硬度等级差异展现显著光谱变异,麻质载体在PCA分析中形成独立聚类。历史文档中的碳基墨水红外反射率高于模拟样本,推测与自然老化导致的表层磨损有关。

创新价值与局限

该研究创建了目前最全面的历史文档高光谱资源,其突出优势在于:

  1. 首次实现400-1700 nm双波段空间配准数据

  2. 包含像素级标注的墨水-载体相互作用区域

  3. 提供标准化老化过程监测基线数据

局限性体现在历史样本获取难度导致的样本不平衡,以及复杂老化机制对光谱特征的潜在影响。研究者通过GitHub公开了MATLAB/Python数据处理代码,促进跨学科合作。这项成果不仅推动了计算考古学发展,更为博物馆、档案馆的文物保护实践提供了创新技术路径,标志着光谱成像技术在文化遗产领域的应用进入新阶段。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号