
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于自动化框架的临床编码表开发:针对英国多长期病症患者的验证研究
【字体: 大 中 小 】 时间:2025年05月25日 来源:BMC Medical Research Methodology 3.9
编辑推荐:
本研究针对临床编码表(codelist)开发过程中耗时且易出错的问题,提出了一种通用自动化框架(GCAF),通过整合可信数据源(如CALIBER和eFI2)和半自动化流程,显著减少了临床专家验证时间。以英国多长期病症(MLTC)患者数据为案例,该框架成功生成214个编码表,验证效率提升80%以上,为电子健康记录(EHR)研究的透明性和可重复性树立了新标准。
在当今医疗大数据时代,电子健康记录(EHR)已成为人口健康管理和临床研究的重要工具。然而,将这些原始数据转化为可分析的标准化信息,离不开临床编码表(codelist)的桥梁作用。编码表是将分散的临床术语(如SNOMED CT或ICD代码)归类为特定疾病或治疗概念的关键工具,但其开发却面临巨大挑战:现有方法依赖大量人工操作,临床专家需耗费数月时间验证数万条代码,且不同研究间的编码表缺乏透明性和可重复性。
针对这一痛点,由英国利物浦大学、利兹大学和曼彻斯特大学等机构组成的研究团队,在《BMC Medical Research Methodology》发表了题为《An automation framework for clinical codelist development validated with UK data from patients with multiple long-term conditions》的论文。研究团队设计了一个通用编码表自动化框架(Generalised Codelist Automation Framework, GCAF),通过半自动化流程整合可信数据源(如CALIBER和电子衰弱指数eFI2),显著提升了编码表开发效率。
研究团队采用多阶段技术方法:首先通过NHS TRUD映射文件统一编码格式;其次利用自然语言处理技术匹配不同编码表中的同义临床概念;再通过临床专家对条件名称(而非单个代码)进行分组或拆分指导;最后通过CALIBER等已验证编码表自动“收缩”需人工审核的代码量。研究以英国国家健康研究所(NIHR)资助的DynAIRx项目为案例,该项目旨在优化多病症(MLTC)患者的药物处方,需构建涵盖214种病症的复杂编码表。
研究结果显示,GCAF框架实现了三大突破:一是效率提升,一个包含14,000条SNOMED代码的编码表仅需7-9小时临床验证时间,较传统方法缩短80%以上;二是覆盖全面,新增78种未被CALIBER收录的特定病症代码(如肾结石、周围神经病变);三是质量可控,通过四轮临床专家会议(每次1小时)完成对复杂病症(如酒精相关疾病、精神健康)的精准分类验证。与现有编码表(如OPTIMAL、AI-MULTIPLY)相比,DynAIRx编码表更专注于多病症研究,剔除无关条件后仍保持14,000条代码的规模。
讨论部分强调,GCAF的创新性体现在三个维度:方法学上首次提出可扩展的自动化流程模板;实践上通过GitHub开源框架促进透明研究;理论上为多病症(multimorbidity)与多重用药(polypharmacy)的交互研究奠定基础。局限性包括尚未解决临床术语的时间漂移问题(如QOF激励政策变化对编码的影响),未来可结合OMOP-CDM模型进一步扩展。这项研究为处理EHR数据的“脏、乱、慢”难题提供了标准化解决方案,其开源工具(附于论文补充材料)已可直接应用于英国临床实践研究数据链(CPRD)等真实世界数据库。
生物通微信公众号
知名企业招聘