基于OMOP通用数据模型的癌症最小数据集编码标准统一化研究:MEDOC框架的开发与应用

【字体: 时间:2025年09月10日 来源:ESMO Real World Data and Digital Oncology

编辑推荐:

  为解决癌症临床数据异质性难题,研究人员开发了基于OMOP CDM的MEDOC框架,通过多中心协作建立标准化映射规则,成功实现欧洲数字肿瘤网络(DigiONE)的跨机构数据整合,为真实世界肿瘤研究提供可扩展的解决方案。

  

癌症作为一组高度复杂的疾病,其诊疗过程涉及从诊断到随访的漫长路径,而这一特点也反映在临床数据的记录中。当前癌症数据面临三大核心挑战:数据异质性(不同医疗机构采用差异化的编码系统如SNOMED与ICD-O-3)、存储分散性(临床、病理、影像等多系统分立)以及信息缺失问题。尽管OMOP通用数据模型(Common Data Model, CDM)为临床数据标准化提供了框架,但其肿瘤学模块仍在完善中,难以满足癌症特异性研究需求。

在此背景下,欧洲癌症数字研究所(DIGICORE)发起的DigiONE计划提出创新解决方案——开发最小癌症基础描述框架(Minimal Essential Description of Cancer, MEDOC)。该研究由IQVIA Ltd领衔,联合比利时、英国、德国等欧洲顶尖医疗中心,通过社区驱动模式构建标准化数据映射体系。研究团队面临的核心科学问题包括:如何在不同数据成熟度的医疗机构间建立诊断日期统一算法?如何处理转移灶定位的粒度差异?以及如何协调不同临床编码系统的转换?

研究采用多阶段迭代开发流程:首先通过深度研讨确定MEDOC核心概念,随后使用OHDSI工具链(WhiteRabbit、RabbitInAHat、Usagi)进行数据提取-转换-加载(ETL),并利用Achilles和Data Quality Dashboard进行质量验证。关键创新点体现在三个方面:建立诊断日期三级优先规则(欧洲癌症登记网络ENCR日期>病理日期>影像日期)、开发ICD-O-3编码转换工作流、制定转移灶定位的"最大粒度捕获"原则。

研究结果部分呈现四大核心发现:

  1. 1.

    MEDOC概念与OMOP映射关系:构建了包含27个核心概念的映射表,如将出生日期映射至PERSON表三列(年/月/日),肿瘤诊断则需同时关联CONDITION_OCCURRENCE和PROCEDURE_OCCURRENCE表。

  2. 2.

    诊断日期标准化方案:针对"三重诊断日期"困境,开发了基于ENCR标准的层级式解决方案,通过condition_type_concept_id区分不同来源的诊断日期。

  3. 3.

    转移灶定位处理:发现部分中心可细分脑转移为实质性与软脑膜病变,最终采用"向下兼容"策略保留最大数据粒度。

  4. 4.

    临床实施成效:已在两项DigiONE观察性研究中验证实用性,包括COVID-19期间癌症诊疗延迟研究,实现14个月内完成从数据整合到结果发布的全流程。

讨论部分强调该研究的双重价值:方法论层面,MEDOC填补了OMOP肿瘤模块的实践空白,其模块化设计支持后续扩展至放射配体治疗等领域;临床应用层面,为欧洲健康数据空间(EHDS)计划提供了预验证方案。值得注意的是,研究也揭示实施挑战:不同中心OMOP术语版本差异可能导致分析偏差,需要额外设计校正机制。

该研究的创新性体现在将理论框架(OMOP CDM)转化为可操作的实施指南,其开发的诊断日期算法和元数据管理策略已被OHDSI肿瘤工作组采纳参考。随着MEDOC v1.05在DigiONE网络的持续部署,这套标准体系有望成为欧洲肿瘤真实世界研究的基准框架,加速精准肿瘤学的数据驱动决策进程。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号