基于临床文本树状结构与Transformer-Tree-LSTM的ICD智能编码模型(TRIC)研究

【字体: 时间:2025年05月27日 来源:Artificial Intelligence in Medicine 6.1

编辑推荐:

  针对电子病历ICD编码存在的语义模糊、结构特征缺失等问题,研究人员提出融合选区树(Constituency Tree)和Tree-LSTM的TRIC模型,通过bioBERT预训练增强关键特征匹配,在MIMIC-III数据集上实现MiF 0.586、P@8 0.758的突破性性能,为医疗大数据标准化提供创新解决方案。

  

在医疗信息化浪潮中,国际疾病分类(ICD)编码作为医疗数据标准化的核心环节,每年仅美国就耗费250亿美元用于人工编码,但准确率仅71%且耗时长达34分钟/病例。临床文本的非结构化特性、9000余种ICD代码的复杂映射关系,以及传统深度学习方法对病历层次结构的忽视,成为制约医疗AI发展的关键瓶颈。

甘肃某研究团队在《Artificial Intelligence in Medicine》发表的创新研究,构建了TRIC(Transformer and Tree-LSTM for ICD Coding)双通道模型。该研究通过选区树解析临床文本的语法结构,结合bioBERT预训练模型提取生物医学语义特征,创新性地采用Tree-LSTM处理树状输入,其多遗忘门机制可选择性聚合子节点信息,最终通过全连接网络实现临床文本与ICD代码的多对多映射。关键技术包括:基于MIMIC-III真实世界数据的选区树构建、bioBERT特征增强、树状长短期记忆网络(Tree-LSTM)的层次语义建模,以及多指标评估体系(MiF/MaF/MiAUC等)。

【研究结果】

  1. 方法论:通过选区树将非结构化病历转化为树状结构,bioBERT提取的768维向量与树节点一一对应,Tree-LSTM单元中每个子节点配备独立遗忘门,有效捕获"高血压伴肾功能不全"等复合诊断的层次语义。

  2. 数据集:采用包含58,976例住院记录的MIMIC-III全数据集,对比12种基线模型,TRIC在样本集上P@8(准确率前8位)达0.758,显著优于CNN、BiLSTM等序列模型。

  3. 性能验证:全数据集测试中,微观F1值(MiF)0.586较最优基线提升19.2%,宏观AUC(MaAUC)0.937证明模型对罕见病代码的鲁棒性,消融实验显示Tree-LSTM结构贡献率达34.7%。

【结论与意义】
该研究突破传统序列模型的线性处理局限,首创性地将语法树与深度学习方法结合:1)选区树解决临床文本"看似无结构"的解析难题;2)Tree-LSTM的拓扑结构保留诊断描述的层级逻辑,如"糖尿病酮症酸中毒"中"糖尿病"与"酸中毒"的因果关联;3)bioBERT特征增强使关键编码匹配精度提升22.1%。实际应用中,模型可缩短编码耗时至秒级,为DRG医保支付、流行病学研究提供标准化基础。未来可通过融入ICD-11的语义网络进一步优化跨代码关联建模。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号