编辑推荐:
大语言模型(LLMs)在临床信息提取方面颇具潜力,但面临高计算成本和隐私问题。研究人员开展合成数据蒸馏研究,用其微调开源 LLMs。结果显示,8B 参数模型表现出色,有时超越 70B 模型。该研究为临床信息提取提供了可扩展方案。
在医疗领域,临床信息的高效提取一直是研究的重点。传统的信息提取方法,如基于规则的方法,常常因为医学文本的复杂性和多变性,导致召回率较低;而监督机器学习模型,则受限于标记训练数据的匮乏。近年来,大语言模型(LLMs)的出现,为临床信息提取带来了新的曙光。它具备的零样本和少样本学习能力,使得无需大量手动注释就能实现信息提取。然而,像 GPT-4 这样的前沿 LLMs 在医疗系统中的应用却困难重重。一方面,这些模型大多是专有的,使用条款受限,且存在患者隐私和透明度方面的问题,让医疗机构在采用时有所顾虑;另一方面,它们规模庞大,对计算资源要求极高,普通的医疗系统 IT 环境难以支撑。因此,寻找一种既高效又经济、兼顾隐私的临床信息提取方法迫在眉睫。
在这样的背景下,美国芝加哥大学(University of Chicago)的研究人员展开了深入研究。他们致力于探索合成数据蒸馏在临床信息提取中的应用,希望借此提升开源 LLMs 的性能,使其能在医疗领域更好地发挥作用。研究成果发表在《npj Digital Medicine》上,为该领域带来了新的突破。
研究人员在本次研究中运用了多种关键技术方法。首先是合成数据生成,他们借助大型模型 Llama-3.1-70B-Instruct,基于患者临床记录生成逼真的问题及相应答案、问题类型、答案所在位置、答案来源、难度等级和解释等信息,涵盖布尔(boolean)、数值(numeric)、无法根据现有信息回答的布尔(na-boolean)和数值(na-numeric)等多种问题类型。其次是数据编程,根据模型估计的难度评级选取最具挑战性的问题,并随机划分为训练集和测试集,同时进行后处理以规范数据格式。再者是 QLoRA 微调,使用量化版的低秩适应(LoRA)技术对较小的模型(如 Llama-3.1-8B-Instruct、Llama-3.2-3B-Instruct 和 Llama-3.2-1B-Instruct)进行监督微调,显著降低参数需求和内存要求。最后,通过在合成数据集和两个真实世界数据集(i2b2 2018 临床试验资格挑战数据集和模拟阿哌沙班临床试验资格标准的数据集)上对模型进行评估,检验模型性能。
研究结果
- 合成数据评估:对 1000 个手动注释的合成示例进行评估,8B-All 模型总体准确率高达 89.30%,超越了用于生成合成数据的 70B-Instruct 模型(76.20%)。在 “NA” 类别中,训练模型明确针对无法根据给定上下文回答的问题,效果显著。8B-H-25k 模型同样表现出色,甚至超过 70B-Instruct 模型,表明相对少量的 25k 个示例也能带来明显提升。8B-NB-Only 模型在数值和布尔类型问题上表现优异,但在 “NA” 数据相关问题上表现欠佳。同时,研究发现模型大小与性能之间存在权衡关系,不过 3B-All 和 1B-All 模型在识别无法回答的问题(NA 类型问题)上有独特表现。
- i2b2 临床试验资格挑战评估:在 i2b2 2018 临床试验资格挑战中,70B-Instruct 模型在训练集和测试集上表现最佳。8B-All 和 8B-H-25K 这两个微调模型的表现优于基础的 8B-Instruct 模型,而未包含所有问题类型(8B-NB-Only)或未包含支持信息(8B-No-S)的微调模型表现则不如基础模型。整体上,随着模型规模减小,性能有所下降,这在训练集和测试集的平衡准确率和微平均 F1 值(Micro-F1)评分中均有体现。此外,研究还发现将问题简化为单步回答,例如先提取数值再进行后处理得出布尔答案,比直接让模型回答布尔问题能获得更高的性能。
- 试验标准评估:以阿哌沙班临床试验资格标准为基础构建的数据集对模型进行评估,8B-All 微调模型表现卓越,平衡准确率和 Micro-F1 均超过 0.8,总体平均平衡准确率达到 0.93,Micro-F1 为 0.94,超越了 8B-Instruct 和 70B-Instruct 模型。8B-Instruct-H-25K 模型也取得了类似的高成绩,表明较少数量的难题或更具挑战性的问题在微调中可能更具价值。随着模型规模从 8B-All 减小到 3B-All 再到 1B-All,平均性能(平衡准确率和 Micro-F1)逐渐下降,但每个模型在微调后性能都有显著提升。在某些标准上,如天冬氨酸转氨酶(AST)、血糖和左心室射血分数的提取,大模型(70B-Instruct)和微调后的 8B 模型表现突出;但在检测房颤和房颤消融相关问题上,70B-Instruct 模型表现不如部分 8B-Instruct 模型。同时,由于 MIMIC-III 数据去识别过程中可能误删部分血小板值,导致在血小板相关标准评估中,各模型表现相对较差。
- 资源需求:数据蒸馏大幅降低了模型运行的资源需求。在芝加哥大学研究信息中心的 “Randi” 集群上进行评估,8B 参数模型比 70B-Instruct 模型在运行时间和成本上有显著优势。例如,对 10,000 名患者进行阿哌沙班标准研究,8B 参数模型比 70B 参数模型成本低 3132 美元。
研究结论与讨论
本研究利用合成数据蒸馏,成功提升了开源 LLMs 在临床信息提取方面的可扩展性。研究发现,微调模型的性能与模型大小存在权衡关系,且包含 “NA” 和支持信息对微调模型的高性能至关重要。微调后的模型在不同临床任务中表现出色,部分模型甚至超越了作为 “教师” 的更大模型。即便仅使用合成数据集中的难题子集进行微调,模型性能仍能提升。研究人员还发布了源代码和数据集,为后续临床信息提取研究提供了有力支持。
不过,研究也存在一些局限性。例如,模型在处理数值范围问题时存在困难,如将范围错误简化或在比较范围与特定值时出错;对编辑后的数据和上下文理解存在不足,可能误将编辑标签中的数字作为答案,或因缺乏上下文信息导致判断错误;生成问题时缺乏创造性,存在重复生成和生成无意义问题的情况。针对这些问题,未来研究可引入新机制,如检索增强生成(RAG)技术,以提高问题生成的质量和相关性;优化提示词,避免模型产生错误输出;探索更高效的数据蒸馏方法,改进评估指标,更好地处理临床笔记中的模糊性和多笔记数据融合问题;同时,关注合成数据的生成、合规性、代表性和偏差问题,通过更多样化的数据集评估和偏差缓解策略,提升模型的泛化能力。
总体而言,合成数据蒸馏和微调较小的开源 LLMs 为临床信息提取提供了一种可扩展的替代方案,有望在不同医疗系统中广泛应用。通过更精确的患者表型分析,该研究成果能够加强回顾性研究,推动 LLMs 在医疗领域的有效整合,最终为改善患者预后提供有力支持,在生命科学和健康医学领域具有重要的意义和广阔的应用前景。