基于自动化表格提取方法的全球Sm-Nd同位素数据整合:揭示造山带地壳生长的时空演化规律

【字体: 时间:2025年02月04日 来源:Scientific Data 5.8

编辑推荐:

  本研究针对地质文献中Sm-Nd同位素数据分散、人工收集效率低下的问题,开发了自动化表格提取方法。通过计算机视觉与自然语言处理技术,研究人员从20,000余篇文献中提取10,624条Sm-Nd数据,补充完善了全球造山带地壳物质组成数据库。该成果显著提升了同位素地质数据的采集效率,为定量分析造山带地壳生长模式(如εNd(t)与TDM2关联性)提供了关键数据支撑,发表于《Scientific Data》。

  

在地球科学领域,理解大陆地壳的生长过程是揭示行星演化的核心问题之一。Sm-Nd同位素系统因其在高变质作用中的稳定性,成为追溯地壳形成时代的重要工具。然而,这些关键数据长期分散在数以万计的文献中,传统人工收集方式耗时耗力,且难以避免疏漏。这种数据碎片化严重制约了全球尺度地壳演化研究的进展。

针对这一挑战,来自中国科学院地理科学与资源研究所等机构的研究团队开发了一套创新的自动化表格提取方法。该方法通过融合计算机视觉与自然语言处理技术,实现了地质文献中Sm-Nd同位素数据的高效采集。研究人员从20,000余篇文献的9,138个表格中提取出10,624条数据,并经过严格人工校验后,将2,118条高质量数据整合至全球Sm-Nd数据库,使样本量增加20%以上。这项突破性工作发表于《Scientific Data》,为定量解析造山带物质组成提供了全新数据基础。

关键技术方法包括:1)基于Fast R-CNN的表格区域检测(TableBank数据集训练,准确率97%);2)easyOCR文本识别与结构重建;3)多阶段数据标准化流程(含εNd(t)、TDM1、TDM2参数计算);4)XML格式的元数据整合系统。数据来源覆盖科迪勒拉、阿巴拉契亚等八大典型造山带的中酸性火成岩样本。

文档检索与处理

开发了基于CERMINE的元数据提取流程,通过关键词矩阵(含147Sm/144Nd、εNd等18个专业术语)筛选目标文献。特别设计了地质学术语过滤器,确保收录文献均包含"花岗岩"、"岩浆"等关键岩性描述。

表格数据采集

创新性地采用图像处理与OCR结合方案:对无文本层的扫描PDF,先转换为图像再通过形态学运算识别表格边框;通过水平/垂直扫描确定单元格坐标,最终输出结构化Excel数据。

数据验证

与人工采集数据对比显示:1)εNd(t)与TDM2线性关系吻合度达84.04%;2)新增数据使科迪勒拉等造山带样本量提升22.45%;3)时间效率提升27倍(9,000条数据自动化采集仅需人工1/27时间)。

技术局限性

研究同时指出三类挑战:1)非UTF-8编码PDF的符号识别误差;2)表格标题缺乏标准化导致的解析困难;3)时空信息常分散在文本与图像中,需人工辅助提取。

这项研究建立了地质大数据时代文献数据挖掘的新范式。通过自动化提取的Sm-Nd同位素数据集,使得:1)首次实现八大造山带εNd(t)-TDM2分布规律的直接对比;2)为"热造山带"理论(Collins,2002)提供更丰富的同位素证据;3)推动建立基于Nd同位素填图的造山带定量分类体系。未来,该方法可扩展至U-Pb、Lu-Hf等其他同位素系统,加速地球深部过程研究的数字化转型。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号