编辑推荐:
研究人员针对临床自然语言处理数据难题,开展基于大语言模型(LLMs)的弱监督研究,提升信息提取性能。
在当今数字化医疗时代,电子健康记录(EHRs)里蕴藏着海量的医学信息。然而,要从这些信息中精准提取关键内容,却困难重重。深度学习在自然语言处理(NLP)领域大放异彩,但在临床应用时却遭遇诸多挑战。训练复杂的 NLP 架构需要大量标注数据,可在临床领域,获取这些数据并非易事。一方面,特定亚群(如罕见病患者、少数族裔)在临床记录中的代表性不足,使得数据集的质量大打折扣;另一方面,患者隐私保护严格,获取病历语料库困难重重。而且,人工标注金标准不仅耗费大量人力,还需要专业的临床知识,这无疑增加了标注的难度。
为了解决这些棘手问题,来自美国德克萨斯大学健康科学中心休斯顿分校麦克威廉姆斯生物医学信息学院等机构的研究人员,开展了一项极具创新性的研究。他们致力于探索大语言模型(LLMs)在临床自然语言处理中的应用,通过结合弱监督技术,提出了一种全新的方法,旨在提升临床信息提取的性能。这项研究成果发表在《Scientific Reports》上,为医学信息提取领域带来了新的曙光。
研究人员在研究中运用了多种关键技术方法。首先,他们构建了专门的提示模板,该模板包含系统提示、指令、从训练集中随机抽取的少样本示例以及输入 / 输出占位符。利用这个模板,通过基于提示的监督微调(SFT)对 Llama2-13B 进行训练。之后,使用微调后的 Llama2 对未标注的笔记进行少样本提示,生成弱标签。这些弱标签被用于对 BERT 模型进行弱监督微调,最后再用金标准笔记对 BERT 模型进行微调,以达到最佳性能。研究选用了 2012 年和 2014 年 Integrating Biology and the Bedside(i2b2)以及 2018 年 National NLP Clinical Challenges(n2c2)自然语言处理挑战中的数据集和任务作为基准。
下面来看具体的研究结果:
- LLMs 推理计算成本高昂:在 2018 年的基准测试中,Llama2-13B 为创建弱标签耗费了大量计算资源,处理每个笔记平均需 16 分钟,若处理 MIMIC-III 数据集中全部 59,652 个出院小结,在 NVIDIA A100 GPU 上预计需 727 天;而 PubMedBERT 处理每个笔记仅需 1 秒,处理全部小结预计仅需 18 小时 16 分钟。
- LLM 生成的弱标签:研究人员促使 Llama2-13B 和微调后的 Llama-SFTn生成实体列表,经后处理转化为带标准实体类型和字符位置的框架。不同基准测试中,Llama2-13B 和 Llama-SFT3生成的弱标签实体数量及每个句子、笔记的实体中位数各有差异,且后处理算法能有效处理多数 LLM 预测结果,输出格式不一致导致失败的句子占比不到 1%。
- 提出的方法:Llama-SFTn-WS-BERTn:该方法在多数实验中表现卓越。在资源极度匮乏(仅用 3 个金标准笔记)的情况下,相比基线 Llama-SFT3和 BERT3,Llama-SFT3-WS-BERT3的 F1 得分提升显著,优势分别在 3.5% - 15.0% 和 11.9% - 47.9%。使用 10 个金标准笔记时,同样优势明显。当有 50 个金标准笔记时,其性能与完全监督的 BERT 模型相近,F1 得分差距仅在 2.2% - 6.1% 。
- 提出的方法:Llama-WS-BERTn:这种紧凑方法在多数基准测试中性能提升明显。在 2012 年事件基准测试中,与 Llama-SFTn性能相近,但比 BERTn最高可提升 17.1%。在其他基准测试中,也大多优于 Llama-SFTn和 BERTn。
- 基线方法:不同基准测试中,Llama-SFTn和 BERTn表现各有优劣。2012 年基准测试低资源设置下(n<10),Llama-SFTn表现更好;2014 年基准测试中,Llama-SFTn全面占优;2018 年基准测试则是 BERTn表现更优。
- Llama3 大语言模型:对 Llama3-70B 的评估显示,在 Llama-WS-BERTn设置下,其性能比 Llama2-13B 高 1.1% - 6.1%,但微调后的 Llama2 弱监督(Llama-SFTn-WS-BERTn)性能更优。
在研究结论与讨论部分,研究人员提出的 LLM 驱动的弱监督系统优势显著。在训练仅使用不超过 10 个金标准笔记时,相比 BERT 基线,临床信息提取性能提升 4.7% - 47.9%;使用 50 个金标准笔记时,与完全监督的 BERT 性能相近。该方法在三个基准测试中,对低训练样本量的模型微调效果显著。考虑到微调 LLMs 的计算负担,研究人员提出的紧凑版本也全面提升了性能。而且,该方法生成的是 1.1 亿参数的微调 BERT 模型,相比数十亿参数的现代 LLMs,部署更高效,其框架还具有领域独立性,可广泛应用于多数医学信息提取系统。
不过,这项研究也存在一些局限性。比如,受计算资源限制,选用的基准测试样本量较小;仅评估了 Llama2-13B 和 Llama3-70B,其他开源 LLMs 未纳入评估;未对监督微调、少样本提示、后处理和 BERT 模型微调的不同设置进行评估。但总体而言,这项研究为临床自然语言处理领域开辟了新方向,是低训练样本量场景下极具潜力的方法,有望推动医学信息提取技术的进一步发展,让医疗数据的利用更加高效、精准。