综述：深度学习在自动ICD编码中的应用：进展、机遇与挑战

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月16日 来源：Arthroscopy: The Journal of Arthroscopic & Related Surgery 4.4

编辑推荐：

　　【编辑推荐】本综述系统回顾了深度学习（DL）在自动国际疾病分类（ICD）编码中的研究进展，聚焦临床文本复杂性（如非结构化电子健康记录EHRs）、高维医学代码标签（如ICD-9/10）及长尾分布问题，总结了卷积神经网络（CNN）、注意力机制等技术的应用，并指出融合医学本体（如ICD-11层级结构）与外部知识（如维基百科）的未来趋势。

Abstract

自动ICD编码任务通过为临床文本分配唯一医学代码，支撑医疗数据统计、质量控制和医保结算。然而，电子健康记录（EHRs）的非结构化、异构性及人工编码的高错误率催生了深度学习技术的介入。本文基于53篇文献（2017-2023年），系统分析了CNN、RNN、Transformer及预训练语言模型（PLMs）在解决临床文本噪声、代码高维性和长尾分布中的表现，揭示了融合医学本体（如ICD层级关系）与外部知识库的增效作用。

Introduction

ICD编码作为WHO制定的疾病分类金标准，其手动编码过程耗时且易受主观性影响。例如，美国每年因编码错误导致的成本高达250亿美元。深度学习在药物推荐、放射报告生成等EHR任务中的成功，为自动化编码提供了可能。但挑战仍存：多版本ICD系统（如ICD-9-CM含14,000代码，ICD-10达68,000代码）的复杂性、临床文本的冗余与噪声（如缩写、拼写错误），以及代码标签的长尾分布（MIMIC-III数据集中4000代码仅出现1-10次）。

Methods

研究遵循PRISMA指南，筛选Web of Science等5大数据库中239篇文献，最终纳入53篇。模型方法分为两类：常规深度学习模型（如BiLSTM+Attention）和融合辅助知识的模型（如引入ICD描述文本的PLMs）。

Results

常规模型：CNN擅长局部特征提取，RNN处理序列依赖，而注意力机制显著提升关键信息捕获能力。例如，Transformer模型在MIMIC-III上F1值提升15%。
知识增强模型：结合ICD层级结构（如父子代码关系）的GCN模型，或将临床概念实体（如UMLS术语）嵌入表示的模型，能缓解罕见代码识别难题。

Challenges and Opportunities

未来方向包括：

多模态学习：整合表格化临床数据与文本。
动态编码：适应ICD-11等版本迭代。
伦理考量：避免编码偏差影响医保报销公平性。

Conclusion

深度学习通过端到端特征学习与知识融合，为ICD编码自动化提供了可行路径，但其临床落地仍需跨学科协作以攻克数据质量与模型可解释性瓶颈。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号