通过语义嵌入修正和长尾精细化来提升ICD分类的准确性

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：Enhancing ICD Classification with Semantic Embedding Rectification and Long-Tail Refinement

【字体：大中小】 时间：2025年10月01日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　自动国际疾病分类（ICD）编码面临语义错位与长尾分布问题，本文提出RoSimTail-ICD框架，通过语义空间偏差校正（SSDC）和分阶段自适应尾部优化（MATR）模块，动态调整标签嵌入与训练策略，显著提升在MIMIC-IV等数据集的预测精度（Macro F1达0.293）。

　　在现代医疗体系中，国际疾病分类（ICD）编码扮演着至关重要的角色。它不仅用于电子健康记录（EHR）的标准化，还在健康保险系统、临床决策支持、统计分析以及患者健康数据索引等方面发挥着关键作用。然而，传统的ICD编码方法仍然面临诸多挑战，尤其是在自动编码技术方面。本文提出了一种名为RoSimTail-ICD的新框架，旨在解决两个核心问题：临床文本与ICD编码之间的语义偏差，以及标签分布的长尾现象。这两个问题长期以来制约了自动编码的准确性和泛化能力，而RoSimTail-ICD的引入则为这些问题提供了切实可行的解决方案。

语义偏差是自动ICD编码中最常见的问题之一。由于临床文本和ICD编码在表达方式和结构上存在差异，现有的模型往往难以准确捕捉两者之间的语义关联，导致标签表示不准确。这种偏差不仅影响模型的预测能力，还可能引发错误的编码结果。例如，在临床记录中，某些疾病的描述可能不够清晰或存在歧义，而编码系统需要根据这些信息准确分配对应的代码。这种不一致性使得模型在面对复杂的临床文本时，难以生成可靠的预测结果。此外，语义偏差还可能影响模型对罕见疾病的识别能力，因为这些疾病在文本中的描述往往较为模糊，缺乏足够的上下文信息。因此，建立一种有效的语义校准机制，是提升自动ICD编码准确性的关键。

另一个关键问题则是标签分布的不平衡。ICD编码的分布往往呈现出明显的长尾特征，即少数常见疾病占据了大部分编码数量，而大量罕见疾病的编码使用频率极低。这种不平衡使得现有的模型在训练过程中主要关注高频率标签，而忽视了低频率标签的学习。由于低频率标签在实际应用中同样重要，这种忽略会导致模型在处理这些标签时表现不佳，从而影响整体的编码性能。特别是在医疗资源有限的地区，这种不平衡可能进一步加剧编码的困难，因为缺乏足够的数据支持，使得模型难以学习到低频率标签的特征。因此，如何在训练过程中平衡头标签和尾标签的学习，是提升自动ICD编码泛化能力的重要方向。

为了解决上述问题，RoSimTail-ICD框架引入了两个创新模块：语义空间偏差校正模块（SSDC）和多阶段自适应尾部优化模块（MATR）。SSDC模块的主要目标是通过测量动态标签嵌入与静态标签嵌入之间的语义一致性，建立潜在的语义对齐，从而提升模型的语义一致性。这一过程使得模型能够更准确地捕捉临床文本与ICD标签之间的语义关系，增强标签表示的稳定性。在实验中，SSDC模块显著提升了模型在高频ICD标签数据集上的性能，同时在低频标签的早期训练阶段也带来了一定的特征不稳定性。因此，为了进一步优化低频标签的学习，我们引入了MATR模块。

MATR模块的核心思想是通过频率感知的标签划分和梯度优化，逐步提升尾标签的学习效果。这一模块在训练过程中动态地将标签划分为头标签和尾标签，使得模型能够根据标签的频率分布调整优化策略。在多个阶段中，MATR模块应用多步标签梯度优化，确保尾标签在训练过程中获得足够的优化机会，避免其被高频率头标签所掩盖。这种多阶段的自适应优化策略，使得模型在处理不同频率的标签时能够保持良好的平衡，从而提升整体的编码性能。

在实验部分，我们使用了来自MIMIC-III和MIMIC-IV项目的ICD编码数据集。这些数据集涵盖了多种医疗场景，包括常见的疾病编码以及罕见疾病的编码。通过在这些数据集上的测试，我们发现RoSimTail-ICD框架在所有数据集上均取得了最先进的性能。特别是在最新的MIMIC-IV-ICD10-Full数据集上，该框架达到了0.293的Macro F1分数，优于之前的最佳方法17.6个百分点。这一结果不仅验证了RoSimTail-ICD在处理语义偏差和长尾标签分布方面的有效性，也表明该框架在实际应用中的适应性和泛化能力。

RoSimTail-ICD框架的创新性在于其结合了SSDC和MATR模块，形成了一个完整的解决方案。首先，通过将临床文本转化为文本嵌入，并利用预训练语言模型生成静态标签嵌入，该框架为模型提供了丰富的上下文信息。接着，通过交叉注意力机制，将文本嵌入与静态标签嵌入进行交互，生成动态标签嵌入。这些动态标签嵌入不仅能够捕捉临床文本与ICD标签之间的复杂关系，还能够动态调整标签的表示方式，以适应不同的医疗场景。最后，通过直接使用动态标签嵌入计算预测概率，并将其作为后续优化的基础，该框架实现了高效的标签表示学习和准确的编码预测。

在实际应用中，RoSimTail-ICD框架的引入能够显著提升医疗编码的效率和准确性。特别是在医疗资源有限的地区，自动编码技术能够减少对人工编码的依赖，提高编码的效率。此外，自动编码还能减少人为错误，提高编码的一致性和可靠性。在数据量较大的医疗系统中，自动编码技术能够快速处理大量临床文本，提高编码的效率，从而减少医疗成本。例如，在美国，提高编码效率和准确性可以每年减少高达250亿美元的财务损失。在西班牙等国家，由于大量编码仍需人工完成，自动编码技术的引入能够显著提升编码效率，减少人工负担。

RoSimTail-ICD框架的成功应用也表明，自动ICD编码技术正在逐步成为医疗领域的重要组成部分。随着医疗数据的不断增长，特别是非结构化数据的广泛应用，自动编码技术的必要性日益凸显。非结构化数据在医疗系统中占据了很大比例，如临床叙事、医生的诊断记录等。这些数据虽然包含丰富的临床信息，但由于缺乏统一的结构化框架，往往难以直接用于编码。因此，建立一种能够有效处理非结构化数据的自动编码技术，是提升医疗数据利用率的重要手段。

此外，RoSimTail-ICD框架的提出也反映了医疗编码技术的发展趋势。随着深度学习技术的不断进步，越来越多的研究开始关注如何提升模型的泛化能力和适应性。传统的模型往往在处理罕见疾病时表现不佳，而RoSimTail-ICD通过引入SSDC和MATR模块，有效解决了这一问题。这不仅提升了模型在处理长尾标签时的性能，也增强了模型在不同医疗场景下的适应能力。

在医疗领域，自动ICD编码技术的应用还面临诸多挑战。例如，如何处理不同语言的临床文本，如何适应不同的编码标准，以及如何确保编码结果的准确性和一致性。RoSimTail-ICD框架通过引入多阶段的自适应优化策略，能够动态调整标签的划分方式，适应不同的医疗场景。这种灵活性使得该框架在处理不同语言的临床文本时具有较强的适应能力，同时也能够适应不同的编码标准，如ICD-9和ICD-10。

总之，RoSimTail-ICD框架为自动ICD编码技术提供了一种创新性的解决方案。通过解决语义偏差和长尾标签分布问题，该框架不仅提升了编码的准确性，还增强了模型的泛化能力和适应性。在实际应用中，该框架能够有效提高医疗编码的效率，减少人工负担，同时提升编码结果的一致性和可靠性。随着医疗数据的不断增长，自动ICD编码技术的必要性日益凸显，而RoSimTail-ICD的提出则为这一领域的发展提供了新的方向和可能性。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号