性状叙词表:迈向基于FAIR性状的水生生物数据的语义协调

《Ecological Informatics》:Traits Thesaurus: Toward semantic harmonisation of FAIR trait-based data on aquatic organisms

【字体: 时间:2026年06月10日 来源:Ecological Informatics 7.3

编辑推荐:

  基于性状的研究方法在生物多样性和生态学研究中日益重要,尤其是在监测和理解群落及生态系统对生物多样性丧失和栖息地变化的响应方面。生物体功能性状是关键指标,将群落结构和组织与大规模生态系统过程联系起来。尽管基于性状的方法在所有生态领域中的应用不断增加,但缺乏标准化

  
基于性状的研究方法在生物多样性和生态学研究中日益重要,尤其是在监测和理解群落及生态系统对生物多样性丧失和栖息地变化的响应方面。生物体功能性状是关键指标,将群落结构和组织与大规模生态系统过程联系起来。尽管基于性状的方法在所有生态领域中的应用不断增加,但缺乏标准化的性状定义、单位和术语导致了显著的异质性,阻碍了跨研究、跨分类群和跨空间尺度的数据整合、综合和重用。这种语义协调的缺失是生物多样性知识中的一个主要空白,阻碍了跨研究和跨系统的性状比较。因此,研究人员提出了性状叙词表(Traits Thesaurus),这是一个包含超过1500个性状概念的受控词汇,旨在标准化水生生物的性状数据和元数据。性状叙词表扩展并整合了五个现有的叙词表(浮游植物、大型藻类、浮游动物、大型底栖动物和鱼类性状叙词表)到一个统一框架中。除了扩展和巩固现有词汇外,它还引入了新开发的术语集合,包括与可测量性状相关联的标准测量单位以及额外的概念领域。性状叙词表提供稳定的统一资源标识符(URI)、清晰的定义、首选标签和替代标签,以及到外部受控词汇的映射。性状叙词表符合可查找、可访问、可互操作和可重用(FAIR)原则以及关联开放数据(Linked Open Data)原则、国际标准,并实现跨学科和现有生物多样性信息系统的完全互操作性、数据注释和集成。通过这一举措,研究人员旨在促进全球范围内社区驱动的协调性状概念共识,以实现有效的石量级数据调动、互操作性和性状信息的重用,从而推动基于性状的水生生态学和生物多样性研究。
**论文解读:性状叙词表——迈向基于FAIR性状的水生生物数据的语义协调**

**一、研究背景、现存问题与研究动机**

基于性状的研究方法已成为生态学和生物多样性研究的重要框架,通过功能性状(如形态、生理、生活史和行为性状)揭示生物体与环境间的相互作用及对人为压力的响应。然而,尽管性状数据日益丰富,但不同研究、分类群和空间尺度间在性状术语定义、单位和表述上存在显著异质性,导致数据集成、综合和重用困难。这种语义协调缺失阻碍了跨学科、跨生态系统的性状比较,限制了对生态系统结构与功能的深入理解。同时,现有性状相关的语义工具有限且高度异质,缺乏机器可操作的形式化表达,且分散在不同信息系统中互不关联。为此,研究人员依托LifeWatch Italy基础设施,开发了统一的、社区认可的、符合FAIR(可查找、可访问、可互操作、可重用)原则的性状叙词表,旨在解决水生生物性状数据的术语歧义和碎片化问题,促进大尺度数据整合与生态建模。该论文发表在《Ecological Informatics》。

**二、主要关键技术方法**

研究人员采用以下关键技术方法构建性状叙词表(版本2.1):(1)术语搜索与选择:通过雪球法系统检索在线文献、数据集、数据门户和科学著作,结合专家判断,提取并筛选性状术语,涵盖五大水生生物类群(浮游植物、大型藻类、浮游动物、大型底栖动物和鱼类)。(2)形式化:利用SKOS(简单知识组织系统)数据模型和VocBench协作平台,为每个概念分配持久唯一统一资源标识符(URI),构建层次、关联和映射关系,并引入Dublin Core属性记录来源和日期。(3)编辑:在VocBench中精炼概念、优化层级结构,并添加与外部语义资源(如NERC词汇服务器、OBO本体库)的映射关系。(4)验证与发布:分两轮邀请近40位国际专家通过EcoPortal平台进行验证,修订标签、定义和关系,最终在EcoPortal上发布版本2.1。整个流程无需试剂、培养或质粒构建步骤,样本来源涵盖淡水、地下水、海洋及深海环境的水生生物类群。

**三、研究结果**

**3.1 性状叙词表概述与结构**
版本2.1整合了五个分类群特定的SKOS概念方案(浮游植物、大型藻类、浮游动物、大型底栖动物、鱼类),并引入新的“性状单位”收集。叙词表围绕两个顶层概念组织:“性状”(分为人口统计性状和功能性状)和“性状单位”(分为基本、复合和派生单位)。每个概念提供首选/替代标签、定义、来源、创建/修改日期以及到外部语义工具的映射。

**3.2 结构演变**
相比1.0版,版本2.1概念总数增长约300%,净增1129个概念,定义数量增至1418个,替代标签增至1168个。结构上新增了大型底栖动物方案和性状单位收集,层次关系和关联关系数量大幅增加(如广义关系从380增至1514),表明概念组织更加精细。

**3.3 内容与跨方案比较**
版本2.1包含1508个SKOS概念(1396个性状概念+112个单位概念),其中924个跨方案共享,584个为特定方案独有。浮游动物方案概念最多(895个),大型藻类最少(640个)。形态性状和行为性状合计约占全部性状概念的70%,其中形态性状占48.74%(680个),行为性状占21%(293个)。通过雅卡尔相似性分析,大型底栖动物与浮游动物方案间重叠最高(0.74),浮游植物与其它组相似性最低(0.34–0.47),表明其概念域更为独特。

**3.4 与外部语义工具的对齐**
叙词表通过SKOS映射属性与外部资源对齐,共建立560个映射,连接306个概念。最大对齐数量来自NERC词汇服务器(NVS,168个),包括BODC参数模型和存储单位词汇等;其次为OBO本体库(如UBERON、PATO等,共57个映射)以及其他本体如数量-单位-维度-类型本体(QUDT,34个)和环境叙词表(ENVTHES,25个)。

**四、讨论与结论总结**

讨论部分指出,版本2.1的规模增长并非仅数量性提升,而是从概念验证工具迈向成熟、社区认可的语义标准。功能性状与一般性状的区分仍是关键挑战,叙词表通过将功能性状作为涵盖行为、遗传、生活史和形态性状的伞形概念群来处理。此外,性状类别的刚性分配存在问题,叙词表通过主类别放置并结合跨类别语义链接(skos:relatedMatch)解决。实际挑战包括定义一致性(如深度分类、生物地理起源与地理分布混淆)和形态术语多样性(如“体大小”在不同类群中的特定含义),叙词表通过泛化概念保留特异性来解决。摄食模式因高度变异和术语歧义成为最复杂的类别,叙词表通过首选/替代标签对齐同义词,保留描述分辨率。遗传性状作为空类别保留,以待未来共识成熟。

研究结论:性状叙词表旨在成为水生生态学性状术语语义注释的共享参考点,当前包含1500多个标准化术语,覆盖五个领域方案及测量单位方案。它通过提供跨分类群的协调语义框架,解决了术语歧义、碎片化和互操作性有限等长期挑战,纳入研究流程可增强数据互操作性和集成,支持大规模分析和生态建模。性状叙词表不是静态产品,而是随科学知识、生态语境和语言演进的活资源,其长期可持续性依赖于持续的社区参与和迭代精炼。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号