编辑推荐:
在病理学领域,病理科室产生大量非结构化文本诊断报告,转化为结构化数据困难重重。研究人员针对此开展 “Comprehensive testing of large language models for extraction of structured data in pathology” 研究。结果显示开源大语言模型(LLMs)能高精度提取数据,与 GPT-4 相当。这为医疗机构提供了经济且隐私友好的解决方案。
在医学领域的病理学研究中,病理科室积累了海量宝贵数据,这些数据常以自由文本形式存在于诊断报告里,如同杂乱无章的 “数据迷宫” 。对于小型和大型病理科室而言,每年分别能处理 20,000 至 200,000 个病例,并且这些病例会被存档至少 10 年,这使得大型病理机构可能拥有多达数百万个独特病例。其中,至少 50% 的病例源于肿瘤学领域,它们对于开发病理学人工智能(AI)工具、深入了解患者护理的各个方面都有着极高价值。然而,目前大多数病理报告采用自由文本描述和诊断,这极大地限制了从病理档案中查询特定病例类别,以及使用这些病例训练需要精确输入数据标注的 AI 工具的能力。传统的数据提取方法,如基于规则的系统或传统机器学习方法,存在通用性差、性能不佳等问题,难以满足实际需求。同时,使用先进语言模型虽有潜力,但此前研究多依赖专有模型,不仅成本高昂,还存在隐私隐患,并且诸如提示工程和模型量化等关键方面也未得到充分研究。
为了解决这些难题,德国科隆大学医院病理研究所(Institute of Pathology, University Hospital Cologne)的研究人员开展了一项极具意义的研究。他们的研究成果发表在《Communications Medicine》上,为该领域带来了新的曙光。
研究人员在开展研究时,运用了多种关键技术方法。首先,收集了 340 例前列腺腺癌患者在 2020 年至 2022 年间接受根治性前列腺切除术的 579 份病理报告作为样本队列。然后,使用 DeepL API 将德语报告翻译成英语。对于语言模型的评估,利用 OpenAI API 调用 GPT-4,通过 Hugging Face API 获取 Llama2 和 Llama3 模型权重,并分别在不同硬件环境下运行。采用零样本提示、少样本提示等多种提示策略,以评估模型提取结构化数据的能力。同时,运用量化技术将部分模型量化为 4 位,在消费级笔记本电脑上进行测试。
下面来看具体的研究结果:
- 开源 LLM Llama3 与 GPT-4 在数据提取上表现相当:研究人员对多种全权重模型进行评估,发现 GPT-4 和 Llama3 70B 在从病理报告中提取 11 个参数的结构化数据时,整体准确率在两种语言中均超 97%,表现出色。Llama3 8B 虽模型参数相对较小,但也取得了不错的成绩,英语和德语的整体准确率分别为 91% 和 83%。相比之下,Llama2 系列模型的性能则明显较低。此外,在生成正确格式 JSON 文件的能力上,GPT-4 和 Llama3 系列表现优异,Llama2 则存在较多问题。从数据提取时间来看,Llama3 8B 处理速度最快,Llama2 70B 则较慢。
- 深入分析 LLM 输出错误的常见模式:通过对模型输出错误的详细分析,发现存在多种错误模式。例如,在报告次要 Gleason 模式的百分比时容易混淆,以及将淋巴结状态(pN)与神经周围浸润(Pn)状态弄混等。同时,还研究了模型的幻觉现象,即提供不存在的信息。结果显示,GPT-4 未出现幻觉,Llama3 系列模型幻觉发生率较低,Llama2 系列则相对较高。此外,研究还发现文本复杂度对 Llama2 模型的提取结果有影响,随着令牌数增加,其准确率下降。
- 量化 LLMs 结合提示策略在数据提取上效果各异:研究人员利用量化技术,在消费级硬件(MacBook Pro M1,16GB RAM)上测试了 Llama2 13B、Llama3 8B 和 Qwen2.5 7B 这三个开源 LLMs 的 4 位量化版本,并结合五种常用提示策略进行分析。结果表明,与最初测试的 16 位版本 LLMs 相比,所有模型性能均大幅下降,且不同提示策略的效果差异显著。对于 Llama3 和 Llama2,链验证(chain-of-verification)策略效果最佳;Qwen2.5 则在零样本(zero-shot)和链验证策略下表现最佳。
在研究结论与讨论部分,研究人员指出,他们创建了一个包含高质量真实数据的数据集,涵盖了前列腺癌根治性前列腺切除术病例,并且进行了德英双语测试,验证了从病理报告中准确提取相关信息的可行性。研究发现不同类型的 LLMs 性能差异明显,开源模型如 Llama3 在精度上可与 GPT-4 相媲美,且具有成本低、隐私性好等优势。同时,提示工程和模型量化对模型性能有重要影响,但量化模型的性能仍有待提高。与其他研究相比,该研究对多种开源 LLMs 进行了更全面的评估。不过,研究也存在一定局限性,如未明确研究结果对其他恶性肿瘤切除标本的适用性,且未对预训练于医学数据的模型进行研究。尽管如此,这项研究为后续在医学领域利用大语言模型进行结构化数据提取提供了重要的参考依据,推动了相关领域的发展,为未来病理学 AI 工具的开发和优化奠定了坚实基础。