
-
生物通官微
陪你抓住生命科技
跳动的脉搏
从入院到出院:基于SNOMED CT与NLP的上游临床编码系统在巴塞罗那医院诊所的实践与意义
【字体: 大 中 小 】 时间:2025年05月23日 来源:Journal of Medical Systems 3.5
编辑推荐:
为解决电子健康记录(EHR)中健康问题(HP)编码标准化不足、数据利用率低的问题,巴塞罗那医院诊所团队开展了一项结合SNOMED CT术语系统与自然语言处理(NLP)技术的临床编码研究。通过构建本地化健康问题目录(HPC)并集成NLP辅助编码工具,实现74.2%的实时自动化编码,显著提升数据可计算性。该研究为临床决策支持、真实世界研究及医疗管理提供了结构化数据基础,是语义互操作性(FAIR原则)的典范实践。
在医疗信息化浪潮中,临床数据的"语言不通"问题始终是阻碍智慧医疗发展的关键瓶颈。巴塞罗那医院诊所的电子健康记录系统曾面临典型挑战:医生随手记录的"糖尿病""胸痛"等健康问题(Health Problem, HP)以自由文本形式散落各处,既无法被计算机理解,也难以追溯更新。这种"数据荒漠"状态使得宝贵的临床信息既不能支持实时决策,也无法用于科研分析——直到该院临床信息团队开启了一场从入院第一刻就抓取标准化数据的变革。
这项发表在《Journal of Medical Systems》的研究,创新性地将SNOMED CT术语系统与自然语言处理(NLP)技术深度融合。研究团队开发了一套包含编码器、审核器等四大服务器的架构,通过支持向量机(SVM)驱动的NLP工具coding Suite Enterprise(cSE),将医生随手输入的症状描述实时转化为SNOMED CT编码。系统特别设计了"候选概念排名"功能,当医生键入"DM2"时,自动推荐"2型糖尿病(E11.9)"等标准术语,第一建议采纳率高达54.6%。
关键技术方法包括:1)基于160种常见住院诊断构建本地化健康问题目录(HPC),整合SNOMED CT核心子集(6,143概念);2)采用SVM算法开发多语言(ca/es/en)NLP编码工具,训练集包含急诊、门诊等场景的黄金语料库;3)建立术语服务中台实现跨系统同步,每月更新HPC并与SNOMED CT国际版/西班牙扩展版保持同步;4)通过临床工作站插件实现实时编码反馈,未匹配文本由文档专员人工处理。
研究结果显示:
-术语选择与子集应用:SNOMED CT因其临床聚焦性和可扩展性被选为核心术语,通过ICD-10-CM映射补充罕见病编码缺口。本地HPC从初始7,364概念扩展至10,267,通用兴趣(GI)HP增长59.4%。
-系统架构效能:在2024年4-10月记录的118,534条HP中,74.2%通过NLP实时编码,仅2.5%未编码。语义分析模块能有效识别否定词("无糖尿病史")和疑似标记("可能肺炎")。
-临床行为分析:医生对NLP首推概念的接受度(54.6%)显著高于后续选项(24.8%),但20.6%案例仍需人工干预,主要源于缩写歧义("CAD"对应冠心病或冠状动脉疾病)或复合表述。
讨论部分指出,该研究实现了Lawrence Weed 1968年提出的问题导向医疗记录(POMR)愿景的数字化升级。相较于传统出院后编码模式,系统将数据标准化流程前置到诊疗起点,使科研数据获取周期缩短30天。值得注意的是,系统在西班牙语/加泰罗尼亚语环境的表现优于早期英语系统(如Ontoserver),但跨术语映射(如SNOMED CT与ICD-10-CM并行使用)仍是持续挑战。
这项研究为医院级术语服务建设提供了可复用的技术框架:1)通过NLP实现"边诊疗边编码"的工作流革新;2)验证了SVM算法在非英语医疗文本处理的适应性;3)构建的REST API接口已扩展至病理检验系统。正如通讯作者Santiago Frid强调,当HP列表与用药处方等临床行动关联后,将释放更大的决策支持潜力。该成果不仅为欧洲健康数据空间(EHDS)倡议提供了落地样本,更启示医疗机构——高质量数据生产必须始于诊疗的"第一公里"。
生物通微信公众号
知名企业招聘