
-
生物通官微
陪你抓住生命科技
跳动的脉搏
"HYPERDOC:400-1700 nm高光谱历史文档与模拟样本数据集推动文化遗产材料鉴定研究"
【字体: 大 中 小 】 时间:2025年07月17日 来源:Scientific Data 5.8
编辑推荐:
研究团队针对文化遗产领域材料鉴定难题,开发了首个覆盖400-1700 nm范围的高光谱历史文档数据集HYPERDOC。该数据集包含15-17世纪手稿、家谱等真实文献及模拟墨水样本,通过VNIR(400-1000 nm)和SWIR(900-1700 nm)双波段高光谱成像技术获取空间配准数据,并标注像素级材料真值。研究成功应用于机器学习墨水分类、光谱解混等方向,为文物保护提供了创新技术手段。
在文化遗产保护领域,历史文档作为人类文明的物质载体,其保存状况与材料鉴定始终是学术界的重要课题。传统RGB成像仅能获取三个颜色通道的信息,而自20世纪70年代发展起来的高光谱成像技术可捕获数百个光谱通道,从紫外到短波红外范围实现"光谱指纹"识别。然而当前公开数据集中,缺乏专门针对历史文档材料鉴定的高光谱资源,特别是涵盖多种墨水配方、支持介质及老化样本的系统性数据集。
针对这一技术空白,格拉纳达大学光学系色彩成像实验室(Color Imaging Laboratory, Department of Optics, University of Granada)的研究团队开展了HYPERDOC项目。他们创新性地构建了包含模拟样本和真实历史文档的高光谱数据集,相关成果发表在《Scientific Data》。该研究解决了文化遗产保护中墨水成分鉴定、老化过程监测等关键技术难题,为机器学习算法训练提供了标准化数据基础。
研究采用双波段高光谱成像系统进行数据采集:Pika L相机覆盖VNIR(400-1000 nm)范围,Pika IR+相机覆盖SWIR(900-1700 nm)范围。通过线性平移台实现推扫式成像,使用卤素灯照明并采用Teflon标准白板进行反射率校准。数据后处理包括空间配准、小区域(minicube)提取和半自动真值标注,最终形成包含282个样本的标准化数据集。
样本构成与制备
研究团队按13-17世纪历史配方制备了四类模拟墨水:金属胆酸盐墨水(含铁/铜/锌硫酸盐)、乌贼墨汁、碳基墨水及其混合物,并施加于棉麻混纺等五种历史常见载体。特别设计了人工老化实验组,通过80℃/65%RH加速老化舱和盐酸蒸汽两种方式模拟自然老化过程。真实文献样本来自格拉纳达皇家总理府档案馆的15-17世纪诉讼文件、家谱等,经SEM-EDX和XRF技术预先鉴定含有铁胆墨水与碳基墨水混合体系。
技术验证与应用
数据集已成功应用于多个研究方向:
墨水分类:结合VNIR-SWIR数据融合,机器学习模型对铁胆墨水、含碳墨水等三类区分准确率达90%以上
光谱解混:在碳基混合物中识别非碳组分时面临挑战,因其全波段低反射特性掩盖其他成分特征
二值化处理:Bradley算法在SWIR波段表现最优,显著提升古文献OCR识别率
老化分析:通过CIEDE00色差公式和RMSE指标量化人工老化过程的光谱演变规律
光谱特征分析
研究揭示了关键材料的光谱指纹:铁胆墨水在>1200 nm近红外区呈现载体透明度,而碳基墨水保持全波段强吸收。铅笔样本因硬度等级差异展现显著光谱变异,麻质载体在PCA分析中形成独立聚类。历史文档中的碳基墨水红外反射率高于模拟样本,推测与自然老化导致的表层磨损有关。
创新价值与局限
该研究创建了目前最全面的历史文档高光谱资源,其突出优势在于:
首次实现400-1700 nm双波段空间配准数据
包含像素级标注的墨水-载体相互作用区域
提供标准化老化过程监测基线数据
局限性体现在历史样本获取难度导致的样本不平衡,以及复杂老化机制对光谱特征的潜在影响。研究者通过GitHub公开了MATLAB/Python数据处理代码,促进跨学科合作。这项成果不仅推动了计算考古学发展,更为博物馆、档案馆的文物保护实践提供了创新技术路径,标志着光谱成像技术在文化遗产领域的应用进入新阶段。
生物通微信公众号
知名企业招聘