编辑推荐:
罕见病(RDs)数据质量低且稀缺,严重阻碍相关研究与治疗。研究人员开发了基于本体的罕见病通用数据模型(RD-CDM),整合多标准数据。结果显示该模型可提高数据质量和精准度,对推动 RDs 研究和临床治疗意义重大。
在医疗领域,罕见病(RDs)虽单个发病率低,但全球患病人数超 2.6 亿,约占总人口的 4% 。然而,罕见病的诊疗和研究面临诸多困境。一方面,非罕见病专科医疗人员对罕见病认知不足,且其在常规医疗中系统性代表性不足,导致诊断耗时久,误诊情况频发。这不仅延误患者治疗,阻碍新疗法研究,还会给患者及其家庭带来不良心理影响。另一方面,医疗数据缺乏互操作性,大多以非结构化格式记录,未使用标准本体、格式和编码系统,难以用于精确研究。同时,由于罕见病种类繁多,超过 10,000 种,每种都有特定的数据需求,现有国际疾病分类标准(如 ICD-10)又未充分涵盖罕见病,使得统一和简化数据收集及实施困难重重。因此,开发一种能整合各类数据标准、提高数据质量和互操作性的罕见病通用数据模型(RD-CDM)迫在眉睫。
柏林健康研究所(Berlin Institute of Health at Charité – Universit?tsmedizin Berlin)等机构的研究人员开展了相关研究,旨在将欧洲罕见病登记基础设施通用数据集(ERDRI-CDS)、健康级别 7 快速医疗互操作性基础资源(HL7 FHIR)和全球基因组学与健康联盟表型数据包模式(GA4GH Phenopacket Schema)整合为一种新型罕见病通用数据模型(RD-CDM)。研究结果显示,该 RD-CDM v2.0.0 版本包含 78 个数据元素,相比 ERDRI-CDS 增加了 62 个元素,能有效提高罕见病数据的质量和精准度,为临床护理和研究提供支持。该研究成果发表在《Scientific Data》上,对推动罕见病领域的发展具有重要意义。
研究人员采用了多种关键技术方法。首先,以 ERDRI-CDS 为基础,参考其他数据模型,将相关元素映射到 HL7 FHIR v4.0.1 和 GA4GH Phenopacket Schema v2.0。接着,与临床专家合作进行临床评估,平衡模型的范围和数据粒度。然后,采用基于本体的编码方法,使用多种本体和术语系统对数据元素和值集进行编码。最后,在四个德国大学医院的 REDCap 系统中进行了原型实施,收集真实患者数据进行验证和优化。
研究结果主要从以下几个方面呈现:
- RD-CDM 模型构建:详细介绍了 RD-CDM 的各个部分,包括 8 个主要部分及其子部分,每个部分的数据元素、编码系统、与其他标准的对应关系等。例如,对部分章节进行了重命名和扩展,像 “Diagnosis” 部分被细分为四个子部分,新增了许多数据元素,如在 “Genetic Findings” 中,详细描述了基因诊断相关的多个元素,包括基因组诊断、变异解读状态等。
- 评估类别:
- 医疗数据粒度:对模型各部分数据元素从临床角度分析,发现扩展的元素如入院日期、年龄类别等对登记提交和临床研究很重要;同时,纳入一些元素(如性别相关元素)可提高数据精准度,排除(如种族元素)则是考虑到其争议性和数据质量问题。
- 医学推理和临床相关性:在临床环境中实施模型,发现将临床和遗传发现转化为数据元素的过程存在问题,数据质量参差不齐。不过,该模型在临床试用中可行,能支持登记导出和精确分析,但目前范围有限,限制了医学推理能力。
- 互操作性和协调:从六个层面评估模型与数据标准的一致性,发现大部分数据元素(96%)与 HL7 FHIR 或 GA4GH Phenopacket Schema 对齐,但仍存在一些问题,如部分数据元素的数据类型和值集与标准不完全匹配,需要进一步扩展和转换。
研究结论和讨论部分指出,RD-CDM 通过整合多种数据标准,提高了数据的质量和精准度,有助于实现临床、研究和登记目的的无缝数据捕获,为欧洲参考网络更广泛使用 Phenopacket Schema 奠定基础,缩小常规护理与专业 RD 数据之间的差距。然而,该模型也面临一些挑战,如部分数据元素和值集的编码需要进一步优化,缺乏实施指南和明确的基数定义等。未来需在更多国际医疗信息系统和特定疾病用例中进行验证和实施,不断完善模型。同时,可围绕 FHIR 国际患者摘要和基因组报告等进行开发,探索使用大语言模型(LLMs)提高数据的互操作性。总之,该研究为罕见病领域的数据管理提供了重要的基础和方向,有望推动罕见病诊疗和研究的进一步发展。