基于医学命名实体识别(NER)的国际疾病分类(ICD)自动预测算法开发与验证

【字体: 时间:2025年09月20日 来源:BioMed Research International 2.3

编辑推荐:

  本文提出了一种创新的自动ICD编码预测算法,该算法融合医学命名实体识别(NER)与临床文本嵌入技术(ClinicalBERT),通过双层级相似性匹配有效提升预测精度至90%,为医疗信息化提供了高效、低依赖性的智能编码解决方案。

  

Abstract

国际疾病分类(ICD)作为医学编码的标准体系,在人工智能与自然语言处理技术的推动下,自动ICD编码系统的开发已成为研究热点。传统算法多依赖原始文本输入,未能充分挖掘医疗实体的关键信息。本研究提出了一种基于患者主诉的ICD自动预测算法,其核心优势在于整合了医学命名实体识别(NER)与深度语义嵌入技术,显著降低了对大规模训练数据的依赖,并实现了约90%的预测精度。

1. Introduction

计算机技术与医学的融合为医疗健康领域带来了革命性变革。人工智能尤其是机器学习技术的快速发展,为医疗信息处理提供了新范式。ICD作为世界卫生组织维护的核心医疗分类系统,广泛应用于疾病统计、医疗支付和临床研究。然而,人工ICD编码存在误差率高、效率低下等问题,包括缩写误匹配、诊断与编码多对多关系等常见错误。现有自动编码算法多依赖大规模标注数据,且精度有限。本研究通过引入迁移学习与医学NER技术,旨在构建高精度、低数据依赖的自动编码框架。

2. Related Work

现有ICD预测算法可分为基于规则、传统机器学习、深度学习及混合型四类。文本预处理技术包括停用词去除、词干提取、TF/IDF加权、N-gram模型以及Word2Vec、Doc2Vec等嵌入方法。然而,这些方法普遍存在数据依赖性强、维护成本高、泛化能力有限等问题。近年来的研究如KAICD框架、BERT变体与注意力机制结合模型等,虽提升了性能,但仍受限于标注数据规模与计算复杂度。本研究通过双层级相似性计算与实体过滤机制,突破了传统算法的局限性。

3. Materials and Methods

算法流程包含四个核心步骤:

3.1. Get Claim Raw Data

输入为患者主诉的非结构化文本数据,涵盖症状、身体部位、疾病等信息。

3.2. Medical NER

采用基于BERT微调的医学NER模型,从PubMed数据集训练而来,可识别41类医疗实体,重点关注生物结构、症状、年龄、性别与疾病等关键类型。该步骤将无结构文本转化为实体列表,有效过滤冗余信息。

3.3. Medical Entity Embedding

使用ClinicalBERT模型将提取的实体转换为向量表示。该模型基于12亿单词的临床语料训练,生成256维向量序列,最终通过向量平均获得整体表征。

3.4. Disease Embedding

将ICD-10编码的长描述文本通过ClinicalBERT嵌入为向量,并构建本地向量数据库,涵盖代码与对应嵌入向量的映射关系。

3.5. Find Relevant Diseases to the Input

通过余弦相似度计算输入向量与ICD描述向量的匹配度,公式为:

相似度 = (A·B) / (‖A‖‖B‖)

其中A为输入平均向量,B为ICD描述向量。最终根据相似度排序输出最相关的ICD代码。

4. Results and Discussion

4.1. Dataset

实验采用包含10,000条标注记录的本地数据集,其中5,000条用于训练,5,000条用于测试。数据经由医疗编码专家验证,确保标签可靠性。

4.2. Evaluation Metric

采用精确度(Precision)作为核心指标,公式为:

精确度 = 正确预测ICD数 / 总预测ICD数

测试结果显示算法精确度达90.03%,显著优于传统方法。双层级设计(实体过滤+语义匹配)与高效向量检索机制共同支撑了实时性能与高准确性。

5. Conclusion

本研究提出的多层ICD预测算法,通过医学NER与ClinicalBERT嵌入技术的结合,实现了高精度、低数据依赖的自动编码功能。算法以API形式提供集成灵活性,未来可通过引入层次分类与医学本体建模进一步优化性能。当前局限性在于无法完全替代临床专家决策,但其作为辅助工具已展现出显著应用潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号