编辑推荐:
在数据孤岛与本体孤岛问题凸显的背景下,研究人员开展了 PROV-O 与 BFO 映射的研究。通过特定标准构建映射方法和对齐集,实现了 PROV-O 及其扩展到 BFO 等的全面对齐,提升了语义互操作性,为多领域数据整合提供了支持。
在当今数字化时代,数据的价值不言而喻,但数据的管理和利用却面临着诸多挑战。其中,数据孤岛问题尤为突出,不同数据库中的数据各自为政,如同一个个孤立的岛屿,无法相互联通,这使得数据的整合与共享变得极为困难。而本体作为一种能够促进数据互操作性的有效工具,在解决数据孤岛问题方面具有巨大潜力。然而,随着本体数量的不断增加,新的问题 —— 本体孤岛问题又出现了。不同的本体独立存在,导致基于这些本体组织的数据同样难以实现互操作。
在这样的背景下,出处本体(PROV-O)和基础形式本体(BFO)的出现为解决上述问题带来了希望。PROV-O 是万维网联盟(W3C)推荐的本体,主要用于构建关于出处(即数据或事物产生过程中涉及的实体、活动和人员等信息,可用于评估其质量、可靠性或可信度)的数据结构;BFO 则是 ISO/IEC 标准的顶级本体,能够为不同领域的本体提供基础框架,促进语义互操作性。为了进一步提升这两个本体及其扩展之间的互操作性,来自美国国家本体研究中心等机构的研究人员开展了一项重要研究。
研究人员的目标是创建一种映射方法和对齐集,将 PROV-O 及其扩展(如 PROV-AQ、PROV-Dictionary 等)与 BFO 及其扩展(CCO 和 RO)进行有效映射。他们依据特定的标准,优先考虑语义和逻辑原则来设计映射关系。研究结果令人瞩目,实现了 PROV-O 及其扩展中所有类和对象属性到 BFO、CCO 或 RO 中某些类或对象属性的全面对齐。这一成果具有多方面的重要意义。一方面,它使得使用 BFO 相关本体的用户能够借助 PROV-O 的术语来构建关于出处的数据,促进了信息系统中的互操作性,方便了数据的查询和推理;另一方面,通过整合不同本体的语义信息,有望挖掘出更多新的知识。例如,利用 BFO 的公理,语义推理器可以在符合 PROV-O 的知识图谱中发现新的隐含信息。此外,研究中还利用对齐发现了标准 PROV-O 示例数据中的一些小错误,这对于保证数据的准确性和可靠性具有重要价值。该研究成果发表在《Scientific Data》上。
在研究方法上,研究人员主要运用了以下几种关键技术。首先是基于概念分析技术和语义网技术的半自动化本体管理方法。通过仔细评估本体中类或关系实例的必要和充分条件,来确定合适的映射关系。其次,利用 SPARQL 查询来自动验证对齐的完整性,通过查找未映射的术语来衡量项目进展。同时,使用 HermiT 推理机和 ROBOT 命令行工具来测试对齐的一致性和保守性等。此外,研究中还运用了 SWRL 规则来处理复杂的映射关系,以及 SKOS 词汇来表示术语之间的非正式关系。
在研究结果部分,研究人员详细阐述了各类映射情况。
- 起点类和对象属性映射:PROV Entity 被映射为 BFO continuant 的子类,但排除了 BFO spatial regions;PROV Agent 被映射为 BFO material entities 的子类,且与 PROV Activity 和 BFO role 相关;PROV Activity 与 BFO process 等价。在对象属性方面,PROV wasGeneratedBy 等被映射为 BFO、CCO 和 RO 中相关属性的子属性。
- 扩展类和对象属性映射:PROV Person 和 PROV Organization 分别被映射为 CCO Person 和 CCO Organization 与 PROV Agent 的交集;PROV Bundle 被映射为 CCO Information Content Entity 和 BFO generically dependent continuant;PROV Location 与 BFO site 等价。对于扩展对象属性,如 PROV hadPrimarySource 等被映射为 RO causally influenced by 的子属性。
- 限定类映射:PROV Influence 被映射为 BFO process 和 BFO process boundary 的子类的不相交并集的子类,其部分子类根据情况分别映射为 BFO process 或 BFO process boundary 的子类;PROV Start 和 PROV End 分别与 CCO process beginning 和 CCO process ending 等价;PROV Role 被映射为 BFO role 的子类;PROV Plan 被映射为 CCO Information Content Entity 的子类。
- 限定对象属性映射:部分限定对象属性根据其域和范围的映射情况,被映射为 BFO、CCO 或 RO 中相关属性的子属性,对于一些难以直接映射的属性,采用了 SKOS relatedMatch 等方式。
- 数据属性映射:由于 OWL、RDF 和 SWRL 的表示限制,研究人员虽考虑了复杂映射,但无法编码为可计算格式,不过对其进行了非正式的解释。
研究还发现了一些不一致的情况。部分来自 W3C PROV-O 文档的示例与 PROV-O 本身不一致,如 Example 4 中关于 publication activity 的关系描述导致 PROV Activity 和 PROV Entity 的冲突;还有些示例与 PROV-BFO 对齐不一致,如 digested protein sample 的相关关系使 PROV Entity 和 PROV EntityInfluence 出现冲突,以及 sortActivity 中错误使用 PROV atTime 导致与映射不一致。
在研究结论和讨论部分,研究人员成功实现了 PROV-O 及其扩展与 BFO 及其扩展的全面对齐,这为未来复杂数据属性映射的研究奠定了基础。该研究成果不仅在实际应用中具有重要价值,能够促进不同项目中数据的集成,还为评估和改进自动化本体匹配系统提供了参考。同时,研究中使用的各种技术和方法也为后续相关研究提供了宝贵的经验,有助于推动本体领域的进一步发展,提升语义互操作性,为多领域的数据整合和知识发现提供更有力的支持。