面向跨医院部署的自然语言处理系统:基于微调大语言模型的日语疾病名称识别模型开发与验证

【字体: 时间:2025年07月11日 来源:JMIR Medical Informatics 3.1

编辑推荐:

  为解决日语临床文本中疾病名称识别(Disease Name Recognition)的跨医院泛化难题,研究人员开展了一项针对微调大语言模型(LLMs)与掩码语言模型(MLMs)的对比研究。通过构建包含10位医师书写的多样化病程记录(PN)与公开病例报告(CR)的双语料库,发现微调后的LLaMA-3.1模型在跨域(OOD)测试中F1分数下降幅度(-8.6)显著小于BERT基线(-13.9),证实LLMs对临床文档风格差异具有更强鲁棒性。该研究为低资源语言的临床自然语言处理(NLP)系统部署提供了实证支持。

  

在医疗信息化时代,电子健康档案(EHR)中蕴藏着海量非结构化临床文本数据,如何准确提取其中的疾病名称成为临床自然语言处理(NLP)的关键挑战。尽管基于BERT等掩码语言模型(MLM)的方法在英语临床实体识别(NER)中表现优异,但日语等低资源语言面临双重困境:既缺乏高质量标注数据,又存在医院间文档风格差异导致的模型泛化障碍。更棘手的是,现有研究多聚焦于同源数据测试,对模型在真实医疗场景中处理"陌生"病历的能力知之甚少——当AI医生遇到不同医院、不同医师书写的病程记录时,会不会像人类医学生一样手足无措?

为破解这一难题,来自东京工业大学(Tokyo Institute of Technology)的研究团队开展了一项开创性研究。他们构建了包含10位医师书写的100份病程记录(PN)与公开病例报告(CR)的双语料库,首次系统评估了微调大语言模型(LLM)在日语疾病名称识别中的跨医院鲁棒性。研究发现,基于LLaMA-3.1的模型在跨域测试中F1分数仅下降8.6个百分点,远优于BERT模型的13.9分差距,证实LLMs能更好适应临床文档的风格变异。这项发表于《JMIR Medical Informatics》的成果,为低资源语言的临床NLP部署提供了重要技术路线。

研究团队采用三项核心技术方法:首先构建包含1094句病程记录的PN语料库,由10位医师基于10个考试病例模拟真实临床书写风格;其次采用低秩自适应(LoRA)技术高效微调80亿参数的LLaMA-3.1模型;最后设计跨域评估框架,对比模型在病例报告(CR→CR)与陌生病程记录(CR→PN)上的表现差异。

研究结果

模型对比实验
微调LLaMA-3.1在ID(CR→CR)和OOD(CR→PN)设置下F1分别达78.4和69.8,性能差距(-8.6)显著小于BERT的-13.9。即使调换训练数据(PN→CR),LLM仍保持14.7分差距的优势,而BERT骤降至24.2分落差。

分层性能分析
按医师风格分层时,LLaMA-3.1的F1波动范围比BERT窄42%,显示对书写风格变化的强适应性;但在不同临床病例间,两者均出现较大波动,提示疾病类型变异仍是挑战。

错误模式解析
BERT常将"血小板"等检验指标误判为疾病,且存在31%的边界错误;而LLaMA-3.1通过生成式标注能完整捕捉如"栄養障害"(营养障碍)等复合疾病表述,假阳性率降低19个百分点。

讨论与展望
该研究揭示了LLMs在临床NLP中的独特优势:通过生成式架构和更广泛的预训练数据,能更好捕捉日语临床文本的复杂表达。但研究也暴露关键局限——当面对全新疾病类型时,即使LLM性能仍会显著波动,这提示未来需结合医学知识图谱增强领域适应性。

这项工作的临床意义在于:首次证实微调后的LLMs能跨越日语医疗文档的"风格鸿沟",为日本约1800家医院的EHR系统互操作提供了技术可能。更深远的是,其构建的医师风格多样化语料库,为后续医疗AI鲁棒性研究设立了新基准。正如研究者所言:"当AI能读懂任何医师书写的病历,真正的智能医疗时代才会到来。"

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号