
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于OMOP通用数据模型的癌症最小数据集编码标准统一化研究:MEDOC框架的开发与应用
【字体: 大 中 小 】 时间:2025年09月10日 来源:ESMO Real World Data and Digital Oncology
编辑推荐:
为解决癌症临床数据异质性难题,研究人员开发了基于OMOP CDM的MEDOC框架,通过多中心协作建立标准化映射规则,成功实现欧洲数字肿瘤网络(DigiONE)的跨机构数据整合,为真实世界肿瘤研究提供可扩展的解决方案。
癌症作为一组高度复杂的疾病,其诊疗过程涉及从诊断到随访的漫长路径,而这一特点也反映在临床数据的记录中。当前癌症数据面临三大核心挑战:数据异质性(不同医疗机构采用差异化的编码系统如SNOMED与ICD-O-3)、存储分散性(临床、病理、影像等多系统分立)以及信息缺失问题。尽管OMOP通用数据模型(Common Data Model, CDM)为临床数据标准化提供了框架,但其肿瘤学模块仍在完善中,难以满足癌症特异性研究需求。
在此背景下,欧洲癌症数字研究所(DIGICORE)发起的DigiONE计划提出创新解决方案——开发最小癌症基础描述框架(Minimal Essential Description of Cancer, MEDOC)。该研究由IQVIA Ltd领衔,联合比利时、英国、德国等欧洲顶尖医疗中心,通过社区驱动模式构建标准化数据映射体系。研究团队面临的核心科学问题包括:如何在不同数据成熟度的医疗机构间建立诊断日期统一算法?如何处理转移灶定位的粒度差异?以及如何协调不同临床编码系统的转换?
研究采用多阶段迭代开发流程:首先通过深度研讨确定MEDOC核心概念,随后使用OHDSI工具链(WhiteRabbit、RabbitInAHat、Usagi)进行数据提取-转换-加载(ETL),并利用Achilles和Data Quality Dashboard进行质量验证。关键创新点体现在三个方面:建立诊断日期三级优先规则(欧洲癌症登记网络ENCR日期>病理日期>影像日期)、开发ICD-O-3编码转换工作流、制定转移灶定位的"最大粒度捕获"原则。
研究结果部分呈现四大核心发现:
MEDOC概念与OMOP映射关系:构建了包含27个核心概念的映射表,如将出生日期映射至PERSON表三列(年/月/日),肿瘤诊断则需同时关联CONDITION_OCCURRENCE和PROCEDURE_OCCURRENCE表。
诊断日期标准化方案:针对"三重诊断日期"困境,开发了基于ENCR标准的层级式解决方案,通过condition_type_concept_id区分不同来源的诊断日期。
转移灶定位处理:发现部分中心可细分脑转移为实质性与软脑膜病变,最终采用"向下兼容"策略保留最大数据粒度。
临床实施成效:已在两项DigiONE观察性研究中验证实用性,包括COVID-19期间癌症诊疗延迟研究,实现14个月内完成从数据整合到结果发布的全流程。
讨论部分强调该研究的双重价值:方法论层面,MEDOC填补了OMOP肿瘤模块的实践空白,其模块化设计支持后续扩展至放射配体治疗等领域;临床应用层面,为欧洲健康数据空间(EHDS)计划提供了预验证方案。值得注意的是,研究也揭示实施挑战:不同中心OMOP术语版本差异可能导致分析偏差,需要额外设计校正机制。
该研究的创新性体现在将理论框架(OMOP CDM)转化为可操作的实施指南,其开发的诊断日期算法和元数据管理策略已被OHDSI肿瘤工作组采纳参考。随着MEDOC v1.05在DigiONE网络的持续部署,这套标准体系有望成为欧洲肿瘤真实世界研究的基准框架,加速精准肿瘤学的数据驱动决策进程。
生物通微信公众号
知名企业招聘