综述:深度学习在自动ICD编码中的应用:进展、机遇与挑战

【字体: 时间:2025年07月16日 来源:Arthroscopy: The Journal of Arthroscopic & Related Surgery 4.4

编辑推荐:

  【编辑推荐】本综述系统回顾了深度学习(DL)在自动国际疾病分类(ICD)编码中的研究进展,聚焦临床文本复杂性(如非结构化电子健康记录EHRs)、高维医学代码标签(如ICD-9/10)及长尾分布问题,总结了卷积神经网络(CNN)、注意力机制等技术的应用,并指出融合医学本体(如ICD-11层级结构)与外部知识(如维基百科)的未来趋势。

  

Abstract

自动ICD编码任务通过为临床文本分配唯一医学代码,支撑医疗数据统计、质量控制和医保结算。然而,电子健康记录(EHRs)的非结构化、异构性及人工编码的高错误率催生了深度学习技术的介入。本文基于53篇文献(2017-2023年),系统分析了CNN、RNN、Transformer及预训练语言模型(PLMs)在解决临床文本噪声、代码高维性和长尾分布中的表现,揭示了融合医学本体(如ICD层级关系)与外部知识库的增效作用。

Introduction

ICD编码作为WHO制定的疾病分类金标准,其手动编码过程耗时且易受主观性影响。例如,美国每年因编码错误导致的成本高达250亿美元。深度学习在药物推荐、放射报告生成等EHR任务中的成功,为自动化编码提供了可能。但挑战仍存:多版本ICD系统(如ICD-9-CM含14,000代码,ICD-10达68,000代码)的复杂性、临床文本的冗余与噪声(如缩写、拼写错误),以及代码标签的长尾分布(MIMIC-III数据集中4000代码仅出现1-10次)。

Methods

研究遵循PRISMA指南,筛选Web of Science等5大数据库中239篇文献,最终纳入53篇。模型方法分为两类:常规深度学习模型(如BiLSTM+Attention)和融合辅助知识的模型(如引入ICD描述文本的PLMs)。

Results

  1. 常规模型:CNN擅长局部特征提取,RNN处理序列依赖,而注意力机制显著提升关键信息捕获能力。例如,Transformer模型在MIMIC-III上F1值提升15%。

  2. 知识增强模型:结合ICD层级结构(如父子代码关系)的GCN模型,或将临床概念实体(如UMLS术语)嵌入表示的模型,能缓解罕见代码识别难题。

Challenges and Opportunities

未来方向包括:

  • 多模态学习:整合表格化临床数据与文本。

  • 动态编码:适应ICD-11等版本迭代。

  • 伦理考量:避免编码偏差影响医保报销公平性。

Conclusion

深度学习通过端到端特征学习与知识融合,为ICD编码自动化提供了可行路径,但其临床落地仍需跨学科协作以攻克数据质量与模型可解释性瓶颈。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号