用于生物库数据互操作性的“提取、转换、加载”(ETL)基础框架
《Journal of Data and Information Quality》:An Extract, Transform, Load foundation for Biobank Data Interoperability
【字体:
大
中
小
】
时间:2025年11月08日
来源:Journal of Data and Information Quality
编辑推荐:
生物样本库联邦搜索与数据标准化框架构建。通过本地数据库转换为通用数据模型并部署服务器节点,实现隐私保护下的数据共享。采用ETL流程处理生物信息管理系统数据,构建HL7-FHIR事务包框架,包含Python工具集生成标准化JSON文件。已在三个BBMRI.it样本库成功应用,促进研究基础设施的数据互操作与标准化。
摘要
联邦搜索机制在保护隐私的前提下实现了数据的可访问性。BBMRI-ERIC生物样本库基础设施的战略目标之一是通过联邦搜索机制使高质量样本能够被找到。生物样本库加入联邦网络的主要前提条件是将本地数据库转换为通用数据模型,并设置一个服务器节点,以便加载数据库并允许外部查询。对于许多机构而言,数据转换往往是最关键的步骤,因为它们缺乏提高数据开放性(FAIRness)所需的技术能力。这一过程通常包括从生物样本库信息管理系统中提取数据、对其进行转换和加载。本文提出了一种框架,用于将最小化信息的数据集转换为HL7-FHIR交易包,从而实现基本的生物样本库互操作性,并使生物样本库能够连接到BBMRI-ERIC欧洲联邦平台。该工具包包含多个Python模块,用于生成JSON文件,这些文件可以上传到连接到联邦网络的内部FHIR服务器,以实现数据共享和查询执行。该工具已成功应用于三个BBMRI.it生物样本库,帮助它们正确共享数据。总体而言,该工具将促进研究基础设施之间的数据协调和标准化,将现有流程整合到本地信息系统中。该框架的链接为:https://github.com/bbdataeng/a-small-fire。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号