临床前与临床术语的"罗塞塔石碑"映射:eTRANSAFE项目中基于SNOMED CT的跨领域语义桥梁构建

【字体: 时间:2025年08月23日 来源:Journal of Biomedical Semantics 2

编辑推荐:

  本研究针对药物安全评估中临床前与临床数据术语差异的挑战,开发了基于SNOMED CT的"罗塞塔石碑"映射方法。通过建立34,308个概念的跨术语映射网络,结合协调模板实现不同精确度的概念匹配,验证显示其映射精确度达95%,显著优于传统词汇匹配方法(22%),为转化医学研究提供了创新的数据整合工具。

  

在药物研发的漫长征程中,临床前研究与临床研究之间始终横亘着一条数据鸿沟。就像古埃及学家面对罗塞塔石碑时的困惑,研究人员常常被不同研究阶段使用的术语差异所困扰——动物实验记录的"肝脏坏死"与临床报告的"肝细胞损伤"真的是同一现象吗?这种术语壁垒使得约75%的临床前安全数据难以有效转化为临床预测指标,严重制约着药物安全评估的转化效率。

eTRANSAFE项目组在《Journal of Biomedical Semantics》发表的这项研究,创新性地借鉴罗塞塔石碑的破译思路,选择SNOMED CT这一包含45万医学概念的标准术语体系作为"翻译官"。研究团队面临三重挑战:临床术语如MedDRA采用预协调的单一概念(如"Hepatic necrosis"),而临床前数据如SEND术语则采用多概念组合(如"Necrosis"+"Liver");不同术语体系的颗粒度差异;以及约43%的临床前概念缺乏直接对应临床术语。就像需要同时翻译词汇和语法的复杂语言系统,传统的一对一映射方法在此完全失效。

研究团队开发了包含四大关键技术的方法体系:(1) CodeMapper工具实现34,308个HPATH、MA、SEND和MedDRA概念与SNOMED CT的人工映射;(2) 创新设计协调模板,定义"发现部位+形态学异常→疾病"等语义路径规则;(3) 建立精确度评分系统,对概念层级跳跃(1分)、忽略器官(1分)等差异进行量化;(4) 构建动态术语服务系统,支持最大容忍3分的模糊匹配。特别值得注意的是,团队从eTOXsys数据库和药企SEND数据库中筛选实际使用的16,444个概念优先映射,确保工具的实际应用价值。

映射覆盖分析

研究显示,临床前术语中MA解剖学概念全部完成映射(100%),而HPATH病理概念覆盖73%。临床方面,25,433个MedDRA优选术语(PT)中75%实现映射,其中"耳迷路障碍"映射率最高(79%),"社会因素"最低(7%)。这种差异反映出临床前研究更关注可观察的器官病变,而临床数据包含更多主观症状。

精确度验证

通过60个随机样本的双盲评估,零分精确映射(如"Liver+Necrosis→Hepatic necrosis")准确率达100%,1分级别的模糊映射(如"Liver injury")保持90%准确,显著优于UMLS词汇匹配的22%准确率。协调模板允许的三种解剖结构转换(整体/部分/结构)仅增加0.1分惩罚,有效扩展了匹配范围。

动态映射服务

实际应用中,输入"SEND Necrosis+Liver"可返回21个MedDRA概念,按精确度排序:零分匹配"Hepatic necrosis";1分匹配如"Liver injury";负分匹配如"Necrosis"(忽略器官)。这种分级输出使研究人员能根据需求平衡精确度与召回率。

这项研究构建的术语桥梁已成功应用于eTRANSAFE三大应用场景。其创新性体现在:(1)首次实现跨协调模式的概念映射,突破传统一对一映射局限;(2)量化评分系统为模糊匹配提供客观依据;(3)开源发布所有映射数据(GitHub)。局限在于当前仅实现"解剖+病理"单一路径的协调模板,未来可扩展至"严重度+病程"等多维映射。就像罗塞塔石碑开启的古文字破译新时代,这项研究为转化医学数据整合提供了范式转换的工具基础,使药物安全评估能更充分利用跨研究阶段的数据财富。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号