比较三种自然语言处理方法在从法语临床记录中自动识别癫痫患者方面的效果

《Epilepsia》:Comparing three natural language processing methods for the automatic identification of epilepsy patients from French clinical notes

【字体: 时间:2025年10月26日 来源:Epilepsia 6.6

编辑推荐:

  癫痫患者通过法语临床数据仓库的自动化识别研究,采用基本关键词匹配、规则方法和预训练语言模型三种方法,基于10.9万患者的临床笔记数据,发现预训练模型在句子和患者层面的F1分数均达0.95,显著优于其他方法。该方法可高效支持大规模癫痫流行病学研究和共病检测。

  在现代医疗数据管理中,电子健康记录(EHR)已成为重要的数据来源,它们包含了大量关于患者健康状况、诊断和治疗过程的信息。然而,这些数据往往以非结构化文本的形式存在,使得从其中提取有用信息变得复杂且耗时。以癫痫(Epilepsy)为例,作为一种常见的慢性神经系统疾病,其诊断和管理依赖于临床记录中的详细描述。传统的做法是依靠专家对临床笔记进行手动审查,这不仅需要大量的人力资源,而且效率较低,难以适应大规模数据处理的需求。因此,开发和验证能够自动识别癫痫患者的自然语言处理(NLP)算法成为当前研究的一个重要方向。

本研究聚焦于法国巴黎地区38家医院的临床数据仓库(AP-HP CDW),旨在探索如何利用NLP技术对非结构化文本进行自动分类,以准确识别癫痫患者。研究者从该数据仓库中筛选出109,448名患者,这些患者要么被诊断为癫痫(ICD-10编码G40或G41),要么被记录为与癫痫相似的疾病(如R53、R55、R56),或者其病历中提及了至少一种抗癫痫药物(ASM)。随后,研究者从这些预筛选的患者中提取了6733个句子,由一位癫痫专科神经科医生进行标注,判断这些句子是否能够指示癫痫的存在。同时,还从该群体中随机选取了3000名患者,进行人工审核以确定其是否为癫痫患者。基于这些数据,研究者开发并验证了三种NLP方法:基于规则的方法、深度学习模型以及一种简单的关键词匹配方法,评估它们在识别癫痫相关句子和患者方面的性能。

研究结果显示,基于预训练语言模型的方法在句子级别的识别任务中表现最为出色,达到了0.95的F1分数(95%置信区间为0.95–0.96),显著优于基于规则的方法(0.87,95% CI: 0.86–0.88)和简单的关键词方法(0.81,95% CI: 0.80–0.81)。而在患者级别的识别任务中,预训练语言模型同样表现最佳,其F1分数为0.95(95% CI: 0.94–0.96),而基于规则的方法为0.93(95% CI: 0.91–0.94),简单关键词方法则为0.82(95% CI: 0.81–0.84)。这一结果表明,预训练语言模型在自动处理和分析大量临床文本方面具有明显优势。

在方法设计上,基于规则的方法依赖于预设的条件和关键词,例如识别句子中的否定词(如“Absence of”)、假设性表达(如“Suspicion of seizure related to epilepsy”)或提及患者家族史(如“paternal grandfather: epilepsy”)。该方法通过EDS-NLP库实现,能够有效检测与癫痫相关的特定表达方式。然而,这种方法的灵活性较低,难以应对复杂的语言表达和不同医院之间的术语差异。相比之下,预训练语言模型通过学习大量的文本数据,能够更全面地理解句子的语义和上下文,从而提高识别的准确性。研究中使用的CamemBERT模型是基于Transformer架构的,经过自训练后进一步微调,以适应癫痫相关的文本特征。

为了验证模型的性能,研究者采用了多种评估策略,包括不同的句子数量阈值(从1到7条句子)和结合诊断代码与抗癫痫药物使用情况的混合策略。结果显示,当要求至少需要1条“癫痫相关”句子时,预训练语言模型和基于规则的方法都能达到较高的F1分数,而随着阈值的增加,性能有所下降。这表明,尽管预训练语言模型在识别能力上更强,但需要在准确性和召回率之间找到一个平衡点。此外,当结合诊断代码和抗癫痫药物使用情况时,虽然可以提高部分指标,但整体效果仍不如基于规则和预训练模型的方法。

在实际应用中,研究者还关注了那些被诊断为G40或G41的患者群体。对于这些患者,预训练语言模型和基于规则的方法分别将其中的96.9%和96.5%识别为癫痫患者,而专家对预测结果进行了进一步确认。结果显示,81.7%的被预训练模型标记为非癫痫的患者确实不患有癫痫,这表明该模型能够有效识别一些误诊或误标的情况。相比之下,基于规则的方法在这些患者中识别出的非癫痫患者中,只有64.3%被专家确认为非癫痫,说明其在排除误判方面存在一定的局限性。

研究还指出,尽管这些NLP方法在当前数据集上表现良好,但它们仍然存在一些局限性。首先,这些方法仅适用于法语临床文本,虽然法国是NLP技术应用的重要市场,但其通用性仍有待拓展。其次,由于数据来源于预筛选的患者群体,这些模型在实际应用中可能无法完全反映整个患者群体的特征,特别是在诊断记录不完整或存在误标的情况下。此外,模型无法区分慢性癫痫和仅发生过一次癫痫发作的患者,这可能影响对患者病情的准确判断。因此,未来的研究需要进一步探索如何优化模型以适应更多样化的临床数据,并提高对复杂情况的识别能力。

本研究的意义在于,它为大规模的癫痫表型识别提供了可行的解决方案,使得基于非结构化临床文本的自动诊断成为可能。这不仅有助于提升医疗数据的利用效率,也为研究癫痫的流行病学、药物使用情况以及与其他疾病的共病关系提供了数据支持。此外,该研究还强调了在实际应用中,结合多种数据来源(如诊断代码、药物使用记录和临床文本)可以进一步提高识别的准确性,同时建议在不同医疗机构之间进行跨数据集的验证,以确保模型的广泛适用性。

总的来说,本研究展示了NLP技术在处理非结构化医疗文本方面的巨大潜力。通过开发和验证三种不同的方法,研究者不仅验证了预训练语言模型在识别癫痫患者方面的优越性,还为未来的算法优化和应用提供了重要的参考。未来的工作可以进一步探索如何将这些方法应用于其他语言和疾病,以提升医疗数据处理的效率和准确性。此外,结合临床医生的反馈和人工审核,可以进一步提高模型的可解释性和可靠性,使其更好地服务于临床实践和科研需求。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号