基于语言学视角扩展FAIR原则:提升语义互操作性的新框架

【字体: 时间:2025年04月25日 来源:Scientific Data 5.8

编辑推荐:

  为解决FAIR原则在语义互操作性方面的不足,Lars Vogt团队从语言学视角构建了包含术语和命题互操作性的概念模型,提出扩展FAIR 2.0原则及FAIR服务体系。该研究为跨领域数据整合提供了理论框架,对实现机器可操作的语义互操作具有重要指导意义。

  

在数据爆炸的时代,科学界正面临着一个甜蜜的烦恼:每年700万篇学术论文和每三年翻一番的数据总量,既带来了前所未有的知识宝库,也制造了难以逾越的信息迷宫。研究人员常常陷入这样的困境——宝贵的数据分散在不同仓库中,使用着五花八门的数据结构和术语体系,就像一座座孤岛,难以被发现、访问和整合。这正是FAIR(可查找、可访问、可互操作、可重用)原则试图解决的问题。

然而,现有的FAIR指导原则在语义互操作性方面仍显不足。据欧盟估算,缺乏FAIR(元)数据每年造成至少102亿欧元的经济损失。面对这一挑战,德国TIB莱布尼茨科学与技术信息中心等机构的研究人员独辟蹊径,从语言学角度切入,提出了扩展FAIR原则的创新方案。这项发表在《Scientific Data》的研究,为构建真正互联互通的数据生态系统提供了新思路。

研究团队采用了多学科交叉的研究方法:通过语言学分析自然语言中术语和语句的语义传递机制;构建包含术语互操作性和命题互操作性的概念模型;基于知识图谱和本体论技术框架;提出FAIR 2.0扩展原则和服务体系架构。特别值得注意的是,研究利用了来自生物医学领域的实际案例(如COVID-19词汇本体与病毒传染病本体的术语差异)来验证理论模型。

研究结果部分,作者首先通过"语义互操作性及其语言学启示"的分析指出,成功的信息交流需要发送方和接收方共享背景知识,包括词汇能力、语法规则和相关语境知识。研究揭示了自然语言陈述与机器可读数据结构之间的深层对应关系,二者都可视为对参照系统的模型化表达。

在"构建语义互操作性概念模型"部分,研究区分了术语互操作性和命题互操作性两大维度。术语互操作性又细分为内涵型(相同内涵和外延)和外延型(仅外延相同);命题互操作性则包括逻辑型(相同逻辑框架)和模式型(相同数据模式)。研究强调,由于不可能开发出适用于所有研究领域的最佳本体或数据模式,必须通过提供全面的实体映射和模式转换来实现互操作性。

在"FAIR 2.0:扩展FAIR指导原则"部分,作者提出了多项具体补充:在可访问性原则中增加数据保护合规要求;在互操作性原则中新增术语服务和模式服务要求;在可重用性原则中增加数据确定性级别标注。这些扩展使FAIR原则能够更好地应对语义互操作的挑战。

关于"FAIR服务"的讨论指出,仅靠FAIR数字对象(FDO)不足以实现真正的互操作性,必须建立包含术语服务、模式服务和操作服务三大组件的FAIR服务体系。这些服务将提供实体映射、模式转换和可执行操作,形成一个支持数据发现、整合和重用的生态系统。

这项研究的创新之处在于将语言学理论与数据科学实践相结合,为评估和提高数据互操作性提供了系统化框架。研究提出的概念模型不仅适用于知识图谱,也能指导其他数据结构的语义互操作实现。特别值得关注的是,作者强调互操作性不是非此即彼的属性,而是存在于一个连续统中,这一认识对数据管理实践具有重要指导意义。

从长远来看,这项研究为构建互联网FAIR数据与服务(IFDS)的愿景提供了理论基础。正如作者指出的,完全互操作的IFDS虽不可能实现,但通过FAIR服务和扩展原则,可以最大限度地提高数据的可发现性和可整合性。这对于解决科学界的可重复性危机、避免研究资源浪费具有重要意义,也将为跨学科、跨领域的大规模数据整合铺平道路。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号