综述:卫生表格数据通用数据模型与数据标准:系统性综述

《BMC Medical Informatics and Decision Making》:Common data models and data standards for tabular health data: a systematic review

【字体: 时间:2025年11月15日 来源:BMC Medical Informatics and Decision Making 3.8

编辑推荐:

  本综述系统评估了四大通用数据模型(CDM)和四大数据标准在卫生数据整合中的表现,提出OMOP CDM和FHIR标准在跨机构研究中综合评分最高。作者强调需通过ETL工具实现不同模型间转换,并指出FAIR原则(可发现、可访问、可互操作、可重用)是推动健康数据跨国共享的关键。文章为医疗信息系统选择数据标准化方案提供了实证依据。

  

背景

卫生数据的运用能显著改善以患者为中心的医疗服务。跨机构健康数据交换和大规模研究面临诸多挑战,这使得跨越机构边界的医学数据研究变得至关重要——无论是识别风险群体、建立疫情决策框架,还是检测药物不良反应。实现这些目标需要促进健康数据的跨境共享和重用,但数据格式、术语和信息范围的多样性使这一过程异常复杂。FAIR原则(可发现性、可访问性、互操作性和可重用性)正是为了解决这些挑战而提出。通用数据模型(CDM)和数据标准通过统一数据格式和术语,促进了不同数据源的整合与联邦分析。
数据模型是数据元素、属性及关系的蓝图,以结构化方式组织数据。它包含统一的元数据集,以标准化方式协调不同来源的数据。通用数据模型(CDM)是超越单一用例的概念框架。数据标准可分为语法标准(定义结构和格式)和语义标准(如SNOMED CT等术语系统)。CDM常将语义标准作为标准概念纳入,显著增强了不同数据源的互操作性。

数据存储与分析通用数据模型

本研究重点介绍了四种主流CDM:Sentinel CDM(SCDM)、PCORnet CDM、i2b2 CDM和OMOP CDM。每种CDM都针对特定研究需求开发。
Sentinel CDM源于2007年美国FDA的要求,旨在利用真实患者数据进行药物上市后监测。它最初是Mini-Sentinel CDM,后发展为完整版SCDM,专注于快速药物不良事件检测、药物安全性和制药行业监测。SCDM使用SAS工具,以表格形式组织数据,最新版本于2022年发布。
PCORnet CDM基于Mini-Sentinel开发,由以患者为中心的结果研究所资助,2014年首次发布。该模型支持跨网络研究,可用SAS或SQL查询,但其设计无法容纳非结构化数据。
i2b2 CDM自2004年开发以来,已被全球200多家机构采用。它采用星型模式设计,将所有观察数据(如诊断和药物)存储在单一表中,支持数据集成和标准化,灵活性较高。
OMOP CDM同样响应FDA需求建立,后发展为观察性健康数据科学与信息学(OHDSI)项目。它扩展至涵盖电子健康记录(EHR)、医疗笔记和其他健康相关数据,使用SQL-based模型,按面向域的概念组织,要求用户严格遵循其标准词汇。

数据采集与交换数据标准

数据标准用于临床日常记录、交换和请求患者层面信息。本研究涉及四大语法标准:HL7第2版、临床文档架构(CDA)、快速医疗互操作性资源(FHIR)和openEHR。
HL7第2版支持从患者登记到医院物流的工作流程,是全球使用最广泛的医疗互操作性标准,被超过35国家和95%美国医疗机构采用。
CDA是HL7第3版参考信息模型的XML-based文档标记标准,指定临床文档的结构和语义,主要用于交换患者护理中已有的自由文本文档。
FHIR由HL7在2011年开发,是人类可读的标准,通过RESTful API促进患者数据交换,基于Web标准如XML、JSON、HTTP和OAuth。
openEHR由非营利组织openEHR International建立,并标准化为EN/ISO 13606系列标准。它采用三层方法,包含参考模型、可重用内容元素定义(原型)和特定情境数据集定义,用于EHR报告和研究分析。

评估标准与方法

通过全面文献检索,本研究建立了五大类评估标准:适用性、流行度、适应性、互操作性和支持。适用性考察CDM或数据标准处理多种数据源和用例的能力;流行度关注其知名度和使用广泛性;适应性包括扩展自由度和进化维护;互操作性涵盖术语与概念、治理和数据验证;支持包括易用性、工具和版本控制。
基于这些标准,对每种CDM和数据标准进行系统评估。OMOP CDM在CDM中综合得分最高(21+),PCORnet(20+)、i2b2(17+)和SCDM(16+)次之。FHIR在数据标准中获满分(24+),openEHR(23+)、CDA(19+)和HL7第2版(16+)随后。

结果与讨论

在适用性方面,OMOP CDM覆盖最广的数据类型和用例,包括临床数据、健康系统数据、健康经济数据、分子标记、血液学数据、笔记和图像,支持纵向数据分析、高风险患者识别、药物安全研究等。PCORnet CDM处理EHR、管理数据、门诊、急诊科、辅助服务、患者报告结果等,但无法处理非结构化数据。i2b2 CDM支持EHR、生物样本数据、病例报告、调查数据、癌症登记、解剖病理学等,灵活性高。SCDM涵盖EHR、药房服务、实验室结果、卒中登记等,但鼓励最小化映射。所有数据标准均能容纳广泛数据源,以满足其设计目的。
流行度方面,各CDM和数据标准均通过现有网络和合作体现其广泛使用。SCDM和PCORnet基于PopMedNet平台,实现安全数据交换;i2b2通过SHRINE支持多机构研究;OMOP CDM通过OHDSI网络覆盖全球34国331个数据源,含超过21亿患者记录。数据标准中,HL7第2版应用最广,但FHIR在COVID-19期间经受了跨国交换考验,被世界卫生组织推荐为SMART指南标准。
适应性上,i2b2 CDM和所有数据标准均易于扩展和调整,而OMOP CDM和PCORnet CDM治理较强,不鼓励随意扩展,以保持一致性。进化维护方面,除HL7第2版近五年仅一次更新外,所有CDM和数据标准均定期发布版本。
互操作性关键在于标准术语的使用。OMOP CDM要求严格映射到标准概念,提供ATHENA等工具支持映射,但本地词汇缺失可能造成信息损失。PCORnet CDM也推荐使用标准术语,但允许在补充表中添加特定用例数据。i2b2不区分标准与本地术语,支持灵活映射。SCDM尽量保持原始数据值,最小化映射。数据标准均支持通用词汇和外部编码系统,增强兼容性。
支持方面,OMOP CDM提供丰富工具和文档,但新版本文档有时不完整;PCORnet CDM提供数据管理包和查询工具;i2b2社区维基在开发中,安装指南部分章节详细,部分简略;SCDM提供SAS-based工具和合成公共使用文件。数据标准中,FHIR以其直观性和RESTful API易用性脱颖而出,而CDA和openEHR虽然文档齐全,但结构复杂。

结论与展望

没有单一CDM或数据标准能全局适用,各具独特优势和局限。OMOP CDM和FHIR在评估中领先,但选择应基于具体应用和数据特征。未来,工具增强和性能提升至关重要,人工智能和机器学习集成将提供更强大数据分析和决策支持。持续合作与创新对实现CDM在医疗保健中的全部潜力不可或缺。
跨国数据交换和研究,如COVID-19期间的FHIR应用和OMOP CDM多国研究,显示了标准化的重要性。然而,国家卫生系统差异和频繁的术语变化仍是挑战。公开可用的ETL流程促进简单转换和机构间合作,但可能增加工作量、存储需求和信息丢失风险。跨模型查询工具和分层集成方法(如OMOPonFHIR)有助于在不转换数据的情况下实现协作。
总之,推动CDM和数据标准的广泛采用需实现不同表示之间的转换,并在单一工具内利用多种格式促进互操作性。唯此,才能实现无缝的跨境数据交换和研究。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号