综述：临床笔记实体标注中生成式大语言模型的对比分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年02月10日 来源：Genomics & Informatics

编辑推荐：

　　这篇综述评估并对比了生成式大语言模型（LLM）不同微调版本在临床领域零样本命名实体识别（NER）任务中的表现。研究发现指令微调模型在识别实体上表现更优，简单输出结构也有助于提升模型性能，为生物医学 NER 任务提供了新思路。

　　### 研究背景
在医疗领域，从电子健康记录（EHRs）中手动提取相关信息既耗费资源又花费时间。临床命名实体识别（NER）旨在从文本中识别出疾病、症状、医疗程序等实体，但传统基于规则的方法因临床文本语法不一致、词汇变化快而成本高昂，其他监督式机器学习方法也因标注语料库稀缺难以实施。近年来，生成式大语言模型（LLM）发展迅速，在多种自然语言处理（NLP）任务中展现出零样本学习的潜力，即无需标注语料库就能执行任务。然而，针对开放访问的生成式模型在临床领域零样本 NER 任务中的能力探索较少，且提示策略对序列标注输出的影响也有待研究。本研究旨在填补这些空白，探究通用与指令跟随微调对临床领域零样本 NER 性能的影响、代码微调模型能否改善 NER 标注任务所需的结构理解，以及开放访问生成式模型在零样本临床 NER 任务中的性能差异。

研究方法

数据集：研究人员汇编了一组英文临床案例，这些案例标注了疾病、症状和医疗程序提及信息。数据集来源于 DisTEMIST、SympTEMIST 和 MedProcNER 的重叠语料库，原始数据为西班牙语，经机器翻译为英语等语言形成 “银标准” 数据集。整合后共有 1000 个临床案例，平均长度 333 个单词，包含多类标签，采用 IOB 标记方案，提及总数达 21,867 个，其中 2855 个在测试集，19,012 个在训练集。另外，LivingNER 语料库因翻译差异，仅 90 个文档用于零样本实验且排除其标注123。
开放访问大语言模型：选用 Llama 2 和 Mistral 系列模型。Llama 2 有聊天微调版本和代码微调版本（Code-Llama）；Mistral 有指令跟随微调版本（如 mistral-7b-instruct-v0.2）和采用稀疏专家混合（SMoE）架构的 Mixtral 版本（如 mixtral-8x7b-instruct-v0.1）45。
实验设置：使用相同参数的模型，开发三种提示变体。变体 1 仅描述任务和定义实体类别，不指定输出格式；变体 2 以类似代码的列表格式呈现任务和实体类别，并提供 Python 字典格式的示例输出；变体 3 要求模型以更复杂的类似 JSON 格式生成输出，并给出完整示例。采用两种评估策略，策略 1 关注模型识别银标准注释中实体的能力，策略 2 用于评估变体 2 和 3，检查模型生成正确格式输出并填充正确检测实体的能力。同时，将生成式 LLM 的零样本性能与基于编码器的微调神经模型对比，评估其相对性能678。

研究结果

评估策略 1 结果：所有模型精度普遍较高，但召回率较低。这表明模型能正确识别和转录临床案例中的实体，但识别出的实体比例较低。指令模型在检索信息方面表现更好，代码训练模型略占优势，且随着指令和输出格式复杂度增加，识别实体数量减少910。
评估策略 2 结果：提示变体 2 要求的简单输出格式下，模型精度普遍更好。在生成特定格式输出方面，指令模型表现更优。Mixtral-8x7b-instruct-v0.1 在指令微调模型中性能较强，而 Codellama-7b-instruct 在生成复杂 JSON 格式输出时存在问题，会尝试解释和诊断临床案例而忘记生成结构化输出。所有模型识别疾病和症状相对容易，医疗程序提取准确性较低，Mixtral 模型因专家混合架构在该方面表现有所提升111314。
与编码器模型对比结果：预训练在特定领域生物医学数据上的模型表现优于通用领域数据集训练的模型，BIO-BERT 达到最高 F1 分数，与 Mixtral-8x7b-instruct-v0.1 在零样本设置下使用提示变体 1 时的性能相当，凸显领域特定预训练的优势1516。

研究讨论

生成式模型在零样本 NER 任务中的召回率低，可能是缺乏任务特定微调，导致对提示中未明确强调的实体检测不足。简单输出结构有利于 NER 任务，可通过后处理算法与文本对齐获得有效提及级 IOB 标签。指令微调模型在生成特定输出方面更出色，但部分模型可能因进一步微调偏离安全训练，产生诊断相关信息。与编码器模型相比，领域特定预训练对生物医学任务至关重要91215。

研究局限性

LLMs 的非确定性影响结果可靠性，相同输入可能产生不同输出，其输出通常不如传统微调的判别模型可靠和一致。

研究伦理

研究使用公开数据集，但处理临床数据时需考虑数据隐私和伦理问题，在实际临床环境中部署 NER 模型需详细验证，确保保护患者隐私和遵守数据保护法规。

研究结论

本研究评估对比了不同微调的生成式 LLMs 在临床领域零样本 NER 任务中的表现。发现指令微调模型在识别实体上表现更好，简单输出结构可提升模型性能，但微调模型可能会丢失部分安全调整。总体而言，指令微调模型在使用简单输出结构时，在零样本生物医学 NER 任务中表现出色，有望补充缺乏大训练语料库的监督式 NER 系统。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号