《JMIR Medical Informatics》:Clinical Note Generation From Doctor-Patient Conversations Using Parameter-Efficient Fine-Tuning Large Language Models: Comparative Study
编辑推荐:
背景:临床笔记记录是医疗保健中至关重要但耗时的任务。尽管自然语言处理的进步改变了许多领域,但由于开放源数据集的有限可用性,对医患对话进行准确摘要的生成仍未被充分探索。大语言模型(LLMs),凭借其在大规模数据集上的训练,为这一挑战提供了有前景的解决方案。
背景:临床笔记记录是医疗保健中至关重要但耗时的任务。尽管自然语言处理的进步改变了许多领域,但由于开放源数据集的有限可用性,对医患对话进行准确摘要的生成仍未被充分探索。大语言模型(LLMs),凭借其在大规模数据集上的训练,为这一挑战提供了有前景的解决方案。
目标:临床摘要的精确性至关重要,因为它直接影响患者护理和安全。本研究旨在评估参数高效微调(PEFT)的解码器独占LLMs在从医患对话生成临床笔记方面的效能。研究人员专注于评估医学准确性、鲁棒性以及在实际资源约束下参数高效微调方法的可行性。
方法:研究人员使用了包含1700对医患对话及其对应临床笔记的医学训练摘要对话(MTS-Dialog)数据集。采用PEFT技术对多个解码器独占LLMs(包括Mistral、Meditron和Llama)进行微调,以减少计算和内存开销。评估使用标准自动指标,包括面向召回率的要点评估(ROUGE)分数和来自变换器的双向编码器表示(BERT)分数,以衡量生成笔记与参考笔记之间的内容重叠和语义相似性。此外,一名专家医师对LLM生成的笔记进行了医学准确性、完整性、简洁性、相关性、临床连贯性和可读性的评估。
结果:模型性能通过ROUGE分数和BERT分数进行评估,结果表明,在开放源、参数高效微调模型中,Meditron-7B和Llama3-8B达到了最先进的结果,Mistral-7B也表现出竞争力。研究结果表明,解码器独占LLMs,尤其是Llama变体,优于传统模型。此外,使用更高量化程度的微调有可能进一步提升性能。专家评估进一步表明,Llama3-8B和Mistral-7B生成了临床连贯且准确的摘要,Meditron-7B和Llama3-3B在各项评估标准上也表现可靠。研究结果提示,微调时更高的量化程度可能在不显著牺牲性能的情况下提高效率。
结论:本研究强调了参数高效微调解码器独占LLMs通过简化医疗文档来转变临床工作流程的潜力,从而使医疗专业人员能够将更多时间投入到患者护理中。这些模型为传统架构提供了一种可扩展且资源高效的替代方案,并有望简化临床文档工作流程。
临床笔记生成是医疗保健中至关重要的任务,但手动记录耗时且易分散医生对患者护理的注意力。平均每位医生每天需花52至102分钟记录临床笔记。自然语言处理(NLP)的进展,特别是基于变换器的大语言模型(LLMs),为自动化文档生成带来了希望。然而,由于缺乏大规模开放源代码的医患对话数据集,该领域仍未被充分探索。此前的研究(如MEDIQA-Chat 2023挑战)尝试使用序列到序列模型(如BART、Flan-T5)生成临床笔记,但存在幻觉和关键细节遗漏等问题。针对这些挑战,本研究旨在评估参数高效微调(PEFT)方法下解码器独占LLMs(如Mistral、Meditron、Llama)在临床笔记生成中的效能,重点关注医学准确性、鲁棒性和资源效率。研究基于MTS-Dialog数据集(包含1700对医患对话及其临床笔记),通过PEFT技术(包括低秩适配LoRA和8位量化QLoRA)在单一NVIDIA Tesla T4 GPU上进行微调,并采用ROUGE(面向召回率的要点评估)和BERTScore(来自变换器的双向编码器表示)自动指标及一名医师的人工评估。研究结果表明,Meditron-7B和Llama3-8B在开放源参数量高效微调模型中达到了最先进性能,Llama3-8B的ROUGE-1分数为0.4574,BERTScore-F1为0.9060;Meditron-7B在ROUGE-L上略优(0.3667)。数据增强(通过法语和西班牙语反向翻译)并未提升性能,反而导致指标下降。医师评估显示,Llama3-8B和Mistral-7B在所有维度(医学准确性、完整性、简洁性、临床连贯性、整体质量)上获得最高分(平均4.72和4.71)。该研究于《JMIR Medical Informatics》发表,证明参数高效微调解码器LLMs可成为传统架构的可扩展、低成本替代方案,有望优化临床文档工作流程,使医生更专注于患者护理。
研究人员开展研究时采用的主要关键技术方法如下:数据来源为Ben Abacha等人创建的MTS-Dialog数据集(包含1700个模拟医患对话及其对应临床笔记的配对)。技术方法包括:使用参数高效微调(PEFT)技术,即低秩适配(LoRA)结合8位量化(QLoRA),在NVIDIA Tesla T4 GPU上对多个解码器独占LLMs(Llama-3-8B、Llama-3.2-3B、Meditron-7B、Mistral-7B-v0.3)进行微调。评估采用自动指标(ROUGE-1、ROUGE-2、ROUGE-L和BERTScore-F1)以及一名资深医师基于5点李克特量表进行的人工临床质量评估。训练过程中未使用复杂的超参数搜索,而是基于经验手动调整。
研究结果部分总结如下(保留论文中小标题):
- **Principal Findings(主要发现)**:通过ROUGE和BERTScore评估,解码器独占变换器模型Llama3-8B和Meditron-7B在开放源参数高效微调模型中达到最先进性能。Llama3-8B取得ROUGE-1分数0.4574和BERTScore-F1 0.9060;Meditron-7B在ROUGE-L上略优(0.3667)。数据增强未提升性能,反而导致下降。专家医师证实Llama3-8B和Mistral-7B生成临床连贯且准确的摘要,整体临床质量评分最高(分别为4.72和4.71)。
- **Comparison With Prior Work(与先前工作的比较)**:本研究超越了先前最先进的Flan-T5-Large模型,在ROUGE和BERTScore指标上建立新基准。与MEDIQA-Chat 2023中依赖数据增强的方法不同,本研究发现数据增强对Mistral和Llama变体产生负面效果,这与部分医学NLP研究一致。
- **Limitations(局限性)**:所有微调模型存在性别偏见,倾向于将未知性别患者假设为男性,且简单修改提示无法解决。硬件内存限制导致最大序列长度设置为512 tokens,可能影响长对话的完整性。定量评估仅依赖单一专家医师,无法计算组间信度指标如Cohen κ。
- **Future Work(未来工作)**:需开发更多更长、真实的医患对话数据集;构建领域特定预训练的解码器独占LLMs(如医学版Code Llama);探索跨语言临床笔记生成;直接从语音交互生成临床笔记;使用滑动窗口处理长对话;通过手动修正数据集中的性别代词并结合相应提示进行再微调以解决偏差。
讨论部分总结:研究表明,PEFT结合8位量化(QLoRA)允许大型模型在硬件约束下保持高效且医学准确性高。数据增强对性能无益,可能与领域特殊性相关。性别偏差提示模型当前最适合作为人机协同工作流中的辅助工具,而非完全自主的系统。未来需要更多研究以缓解偏差,确保准确的患者记录。
研究结论部分翻译如下:在本研究中,研究人员尝试了多种解码器独占变换器架构,通过对医患对话进行摘要来微调模型以生成临床笔记。结果表明,解码器独占模型(如Llama3和Mistral)在医学对话摘要方面优于经典编码器-解码器模型(如Flan-T5和Pegasus)。较大模型通常比较小模型表现更好。通过微调Llama-3-8B和Meditron-7B模型,研究人员在开放源参数高效模型中取得了ROUGE-1分数和BERTScore方面的最先进性能。然而,所有模型均未进行全参数微调,而是统一采用PEFT方法。本研究强调了领域特定预训练和高质量注释数据集的重要性。尽管方法展示了有前景的结果,但仍需克服硬件限制、性别偏差以及医学数据集多样性不足等挑战。最终,通过解码器独占LLMs自动化临床文档有潜力提升医疗效率。但鉴于本研究中观察到的未解决的性别偏差,这些模型当前最适合作为人机协同工作流中的辅助工具,而非自主系统,需要在偏差缓解方面进行进一步研究后才能确保完全准确的患者记录。