可变形的短语级注意力机制:一种用于提升基于人工智能的医疗编码效率的灵活方法
《Artificial Intelligence in Medicine》:Deformable phrase level attention: A flexible approach for improving AI based medical coding
【字体:
大
中
小
】
时间:2025年11月16日
来源:Artificial Intelligence in Medicine 6.2
编辑推荐:
临床AI文本分类优化研究。摘要:提出动态短语级注意力机制DPLA,通过融合词级语义和可变长度短语上下文,显著提升电子病理报告(629,908例)和医院出院总结(52,722例)中癌症特征(如部位、组织学)的提取准确率。在SEER病理数据集上,CLF-DPLA模型较基线提升平均F1值0.077,软拒判分析显示保留率提高至94.8%。结论:DPLA有效捕捉局部语义特征,增强模型泛化能力和可解释性,适用于医疗数据标准化。
AI技术正在以革命性的速度改变医疗领域的信息处理方式,尤其在临床文本的自动编码和疾病信息提取方面展现出巨大潜力。随着医疗数据的不断增长,传统的手动编码方法在效率、准确性和成本上逐渐暴露出局限性,因此开发高效的自动化信息提取技术成为提升公共健康数据质量的关键。本研究提出了一种名为“可变形的短语级注意力机制”(Deformable Phrase-Level Attention, DPLA)的新方法,旨在通过捕捉文本中的词汇层面和短语层面的上下文信息,提高临床文本分类模型的性能,特别是在电子病历和病理报告中的医学概念提取任务中表现突出。
### 研究背景与意义
AI技术的应用正在改变医疗行业的技术格局,从早期的医学影像分析到如今的个性化医疗和大规模临床文本的自动编码,AI已经成为医疗领域不可或缺的一部分。临床文本的自动编码不仅提高了信息提取的效率,还增强了数据的一致性和可利用性,为构建通用数据模型(Common Data Models, CDMs)提供了支持。例如,美国国家癌症研究所(NCI)的SEER登记系统每年收集大量电子病理报告,这些报告包含癌症发生的关键信息,如部位、亚部位、侧性、组织学和行为等。然而,由于临床文本的复杂性和不规则性,传统的手动编码方法在处理这些数据时面临时间成本高、人力密集和容易出错等问题。因此,需要一种能够高效提取信息的自动化方法。
此外,电子健康记录(EHRs)的自动编码对于支持实时疾病监测和公共卫生政策制定至关重要。例如,在突发公共卫生事件中,能够快速提取疾病信息的能力可以帮助研究人员和政策制定者及时采取措施,减少潜在的健康风险。然而,传统的注意力机制通常只关注单个词的语义关系,忽略了短语层面的上下文信息,这可能导致模型在处理复杂医学文本时表现不佳。为了解决这一问题,本研究提出了DPLA机制,能够同时学习词汇层面的语义和短语层面的上下文信息,从而提升模型在临床文本分类任务中的性能。
### 研究目标
本研究的主要目标是设计一种新型的注意力机制,即DPLA,用于增强临床文本分类模型在关键癌症信息提取任务中的表现。DPLA通过结合词级和短语级的注意力机制,使得模型能够动态地识别文本中重要的上下文信息,从而提高分类的准确性。研究团队对两种临床文本数据集进行了实验,分别涉及癌症病理报告和医院出院摘要,旨在验证DPLA在不同任务中的有效性。
在癌症病理报告数据集中,研究团队使用了629,908份电子病理报告,涵盖了69种主要癌症部位。这些报告由经过认证的癌症登记员(CTRs)手动标注,确保了数据的准确性。在医院出院摘要数据集中,研究团队利用了MIMIC-III数据库中的52,722份文档,这些文档已被人类编码器标注为国际疾病分类第九版(ICD-9)代码。通过这两个数据集的实验,研究团队希望评估DPLA在多类别和多标签任务中的表现,并探讨其在实际应用中的可行性。
### 材料与方法
本研究使用的数据集包括SEER电子病理报告和MIMIC-III医院出院摘要。SEER数据集由美国国家癌症研究所(NCI)的多个登记中心提供,覆盖了2004年至2022年的病理报告。MIMIC-III数据集则由马萨诸塞州总医院(MIMIC-III)提供的公共数据,包含经过去标识化的出院摘要。这些数据集的处理和预处理遵循了标准流程,包括分词、去停用词和清理非字母字符。
研究团队开发了一种基于Transformer的文本编码器模型,即Clinical Longformer(CLF),并将其与DPLA机制结合,构建了CLF-DPLA模型。DPLA机制包括一个上下文范围模块(CRM)、掩码生成模块和自注意力机制。CRM通过学习每个词的上下文范围,动态生成掩码,使得自注意力机制能够专注于重要的上下文信息。掩码生成模块通过计算每个词的上下文范围,生成一个注意力掩码,该掩码决定了哪些词可以作为上下文信息参与自注意力计算。
在实验设计上,研究团队评估了三种基线模型:多任务卷积神经网络(MT-CNN)、多任务分层自注意力网络(MT-HiSAN)和基于CLF的基线模型(CLF-BS)。通过对比这些模型与CLF-DPLA的性能,研究团队希望验证DPLA在提升模型性能方面的有效性。此外,研究团队还对模型的鲁棒性和预测置信度进行了评估,以确保其在实际应用中的可靠性。
### 实验结果
在SEER电子病理报告的多类别任务中,CLF-DPLA在多个指标上均优于其他基线模型。具体来说,CLF-DPLA在准确性、F1分数和保留比例(Retention Proportion, RP)方面表现突出。在不同的错误率下,CLF-DPLA的保留比例也显示出更高的鲁棒性,尤其是在处理分布外数据(Out-of-Distribution, OOD)时,其性能相对稳定。
在MIMIC-III医院出院摘要的多标签任务中,DPLA机制也显示出显著的优势。对于CNN、Bi-GRU和CLF这三种文本编码器模型,DPLA均能提升其在微平均和宏平均F1分数上的表现。其中,Bi-GRU和CLF在使用DPLA时表现出更好的性能,特别是在处理复杂的标签集合时。
此外,研究团队还对DPLA的上下文范围进行了分析,发现不同任务所需的上下文范围存在差异。例如,癌症部位(Site)的上下文范围较小,而组织学(Histology)的上下文范围较大。这种差异可能是由于任务的复杂性不同,癌症部位的信息通常较为直接,而组织学信息可能需要更多的上下文支持。
### 讨论
DPLA机制在多个方面展现出优势。首先,它能够动态调整上下文范围,从而更好地适应不同任务的需求。这种灵活性使得模型在处理复杂的医学文本时更具鲁棒性。其次,DPLA的引入提高了模型的预测置信度,使得模型在处理分布外数据时也能保持较高的准确性。最后,DPLA为模型的可解释性提供了支持,因为其能够识别文本中的重要短语,从而增强模型的透明度和可解释性。
然而,研究团队也指出了该方法的一些局限性。首先,DPLA的实验数据主要来自单一注册中心,这可能限制了其在真实世界中的泛化能力。其次,虽然DPLA在提升模型性能方面表现出色,但其在模型解释性方面的潜力尚未完全探索。此外,由于DPLA的结构较为复杂,其在实际应用中的计算成本可能较高,这需要进一步优化。
### 结论
本研究提出了一种新型的可变形短语级注意力机制(DPLA),通过结合词级和短语级的上下文信息,显著提升了临床文本分类模型的性能。实验结果表明,DPLA在两个临床文本数据集上的表现优于传统方法,特别是在处理复杂任务如组织学信息提取时。此外,DPLA的引入提高了模型的鲁棒性和预测置信度,为实际应用中的数据和谐化和模型部署提供了支持。尽管存在一些局限性,但DPLA在提升公共健康数据质量方面展现出巨大的潜力,未来的研究可以进一步探索其在不同应用场景中的表现和优化。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号