科学知识机器可读化:一种基于预出版生产的FAIR研究数据新范式

【字体: 时间:2025年05月01日 来源:Scientific Data 5.8

编辑推荐:

  针对科学文献中知识难以被机器自动提取和重用的难题,研究人员提出"reborn"预出版生产方法,通过整合Open Research Knowledge Graph(ORKG)基础设施,在数据分析阶段直接生成机器可读的科研发现表达。该研究在土壤科学、计算机科学和农业生态学三个案例中验证了该方法在知识准确性、丰富性和可重复性方面的优势,为FAIR(可查找、可访问、可互操作、可重用)科研数据的生产提供了创新解决方案。

  

在数字化科研时代,一个令人困扰的悖论始终存在:虽然科学文献数量呈指数级增长,但其中蕴含的知识却以人类可读的叙事文本形式"沉睡"在PDF文件中。这种"数据埋葬"现象使得机器无法直接理解和处理科学知识,导致知识重用效率低下。以系统综述为例,研究人员需要耗费6-12个月全职工作,其中一半时间用于从文献中手动提取数据。这种低效模式严重制约了科学进步的速度,特别是在需要整合多源研究结果的领域,如医学元分析或材料科学发现。

针对这一挑战,来自德国莱布尼茨科学和技术信息中心(TIB)的Markus Stocker团队在《Scientific Data》发表创新研究,提出名为"reborn"的预出版生产方法。该方法颠覆了传统的"先出版后提取"模式,通过在数据分析阶段直接生成机器可读的科研发现表达,确保科学知识"天生可读"。研究团队利用Open Research Knowledge Graph(ORKG)基础设施,在土壤科学、计算机科学和农业生态学三个案例中验证了该方法的优越性。

关键技术方法包括:1)在R/Python计算环境中集成ORKG模板(结构化数据模式);2)通过ORKG Python/R库实现机器可读数据自动生成;3)采用TIB Leibniz数据管理器进行数据沉积;4)利用DOI元数据实现文章与数据的双向链接;5)基于ORKG的知识聚合与服务提供。研究选取的三个案例分别来自Copernicus Publications、CEUR Workshop Proceedings和Wiley出版的期刊论文。

研究结果部分展示了该方法在不同学科的应用成效:

"Use case in soil science"部分:以Gentsch等发表的土壤科学研究为例,研究团队创建了描述统计、线性混合效应模型(LMM)和结构方程建模的ORKG模板,将原始R脚本扩展为能自动生成JSON-LD格式机器可读数据的版本。通过与原作者合作,实现了研究结果的可计算化表达,并成功将机器可读数据作为文章补充材料与原文DOI互链。

"Use case in computer science"部分:在ThieBen等关于大语言模型(LLM)科学同义词识别的研究中,应用ORKG Leaderboard模板自动提取TDMS(任务、数据集、指标、分数)元组。虽然该文章通过CEUR-WS出版缺乏DOI支持,但仍实现了文件级数据收集,并自动生成展示模型性能趋势的Leaderboard可视化。

"Use case in agroecology"部分:对Perez-Alvarez等2018年发表的农业生态学研究进行回溯性处理,证明该方法对已发表文献的适用性。通过将线性混合效应模型(LMM)等复杂统计结果转化为结构化数据,展示了处理丰富科学知识(包括复杂表格数据)的能力。

研究讨论部分通过对比分析揭示了reborn方法的显著优势:在准确性方面,相比自动化提取技术(准确率约10-40%)和易出错的手工提取,预出版生产能保持原始数据的精确性;在丰富性方面,克服了传统方法难以提取复杂知识结构的局限;在技术简易性上,远低于需要训练数据和模型部署的自动化方法。虽然该方法在可扩展性和覆盖历史文献方面存在局限,但其在FAIR数据生产方面的创新价值显著。

这项研究的重要意义在于:1)建立了从知识生产到重用的完整链条,推动科学交流范式变革;2)为实施FAIR原则提供了可操作方案,特别在"机器可读"这一关键维度;3)通过增强审稿过程的可验证性和结果可重复性,提升了科研质量;4)为合成研究(如元分析)提供了高效数据源。随着Zenodo等平台5%的论文已关联分析脚本,该方法有望在未来成为科学出版的标配实践,加速科学发现的传播与应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号