概念性服务架构:通过可被机器执行的数据管理计划来同步研究数据管理服务

《ACM Transactions on Management Information Systems》:Conceptual service architecture to synchronise research data management services using machine-actionable data management plans

【字体: 时间:2025年11月07日 来源:ACM Transactions on Management Information Systems

编辑推荐:

  自动化数据管理计划同步架构研究

  在当代科研活动中,研究数据管理(Research Data Management, RDM)已成为不可或缺的一部分。研究者在日常工作中需要处理数据的采集、组织、存储、保存和共享等环节,以确保数据的可发现性(Findable)、可访问性(Accessible)、可互操作性(Interoperable)和可重用性(Reusable)——即FAIR原则的体现。同时,数据的可重复性也是科研质量的重要指标之一。为了实现这些目标,研究数据管理服务在科研生命周期的不同阶段扮演着重要角色,如基金资助方、数据托管机构、研究支持人员、伦理审查者、法律专家、科研人员等,他们都需要在不同阶段对数据进行管理和跟踪。

然而,传统的数据管理计划(Data Management Plan, DMP)往往以静态文档的形式存在,这种形式在项目进展过程中容易变得过时或失效。研究者通常在项目初期使用预设模板来填写DMP,但随着研究的深入,数据存储方式、数据共享机制、数据格式等信息可能会发生变化,而DMP未能及时更新,这会导致信息不一致,进而影响数据管理的效率和准确性。因此,构建一个能够动态同步和更新DMP信息的系统,对于实现高效、自动化和一致性的数据管理至关重要。

本文提出了一种基于机器可操作数据管理计划(Machine-Actionable DMP, maDMP)的理论服务架构,旨在通过动态更新和同步机制,实现不同半自动化数据管理服务之间的信息交换。该架构的提出基于对典型使用场景的分析和对DMP变更需求的归纳。通过这一架构,研究者和相关机构可以更有效地协调和更新数据管理信息,避免信息孤岛和重复存储的问题,从而提升整体数据管理的效率和可靠性。

maDMP的概念最早由Research Data Alliance(RDA)提出,其核心在于使用一组属性来描述传统DMP中的信息,使得这些信息能够被自动系统读取和处理。这一推荐已被大多数DMP工具提供商采用,用于导入或导出DMP信息。然而,当前的实现方式多为单向的数据流,而非持续的、多服务之间的信息交换。这意味着,虽然maDMP在一定程度上促进了信息的可重用性,但在实际应用中,仍然存在信息同步和更新不足的问题。

为了克服这一局限,本文引入了一个定制的maDMP应用配置文件,对原始配置进行了调整,以更好地适应研究过程中不断变化的实体标识符,并追踪这些标识符的演变过程。该配置文件包含多个对象及其属性,并针对每个对象定义了其唯一的标识符。例如,DMP、项目、资金、数据集、分布、许可、主机等对象,都通过特定的属性进行识别,确保在数据管理过程中能够准确地定位和更新相关信息。这种设计使得DMP信息在多个服务之间能够被动态地同步和更新,而不会因为标识符的变更而导致信息丢失或错误。

此外,本文还设计了一套通用的流程,用于访问和修改maDMP中的特定部分。这些流程不仅涵盖了DMP属性的更新,还包括对象标识符的修改、数据集的删除、获取DMP的历史版本和获取数据的来源信息等。这些流程通过统一建模语言(UML)和业务流程模型与符号(BPMN)进行描述,以确保信息同步过程的清晰性和可执行性。通过这种方式,不同RDM服务之间可以建立有效的信息交互机制,从而实现信息的持续更新和一致性。

在系统设计和实现方面,本文提出了一种集成服务,该服务基于定制的maDMP配置文件,提供了一系列功能,使RDM服务能够在权限范围内对DMP信息进行访问和修改。服务通过REST API接口与各个RDM服务进行通信,并使用版本控制机制来确保DMP信息的可追溯性。同时,该服务还能够追踪各个RDM服务对DMP信息的修改历史,从而在信息更新时保持数据的一致性。

为了验证该服务的有效性,本文设计并执行了八个功能测试用例,涵盖DMP属性的修改、DMP的获取、对象标识符的更新、数据集的删除、数据来源信息的获取、RDM服务权限的设置、DMP的验证与识别、以及RDM服务的识别等。所有测试用例均成功执行,并且服务在每次修改后都能正确同步信息到相关的RDM服务中。测试结果表明,该集成服务能够满足所有功能需求,实现DMP信息的动态更新和同步。

然而,尽管该服务在技术实现上达到了全自动化,但实际应用中仍需研究者和管理员进行一定的干预。例如,在修改DMP属性时,研究者需要明确指定修改的范围和权限,以确保数据的安全性和一致性。此外,RDM服务的配置和维护也需要人工参与,如数据库的更新、系统权限的设置等。这些人工操作虽然在自动化流程中占据次要地位,但仍然是保证系统正常运行的重要环节。

本文的架构设计不仅为DMP信息的同步和更新提供了理论支持,也为未来的实践应用奠定了基础。通过这一架构,可以实现多个RDM服务之间的信息共享和协调,从而提高数据管理的效率和质量。此外,本文还提出了一个关于未来工作的建议,即推动RDA成立一个新的工作组,专注于开发DMP平台的标准化API。这一API将作为数据管理服务之间互操作性的基础,使得DMP平台能够与其他数据管理工具和知识图谱等系统无缝对接,从而拓展数据管理的应用场景。

总之,本文的研究成果为实现高效、自动化和一致性的数据管理提供了新的思路和方法。通过引入机器可操作的数据管理计划和定制化的服务架构,能够有效解决传统DMP在项目进展过程中信息过时的问题,促进数据管理服务之间的信息共享和协同工作。同时,本文还为未来数据管理系统的标准化和互操作性提供了重要的参考和框架,有助于推动科研数据管理的进一步发展和优化。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号