
-
生物通官微
陪你抓住生命科技
跳动的脉搏
从原始音频到结构化数据:一种基于智能代理的流程,可提升医疗领域大型语言模型(LLM)的性能
《npj Digital Medicine》:From raw audio to structure: an agent-based pipeline that boosts medical LLM performance
【字体: 大 中 小 】 时间:2026年06月09日 来源:npj Digital Medicine 15.1
编辑推荐:
摘要大型语言模型(LLMs)在临床交流中的应用日益广泛,但其可靠性依赖于高质量的对话语料库。现实中的医患对话记录常常受到噪声、转录错误、说话者重叠以及对话结构碎片化的影响,这限制了这些数据在下游模型训练中的使用效果。本文提出了一种基于智能体的转录框架,该框架能够自动将原始的非结构
大型语言模型(LLMs)在临床交流中的应用日益广泛,但其可靠性依赖于高质量的对话语料库。现实中的医患对话记录常常受到噪声、转录错误、说话者重叠以及对话结构碎片化的影响,这限制了这些数据在下游模型训练中的使用效果。本文提出了一种基于智能体的转录框架,该框架能够自动将原始的非结构化对话转录文本(RUCT)转换为适合LLM微调的结构化对话转录文本(SCT)。该系统整合了三个协同工作的模块——规划器(Planner)、记忆模块(Memory)和执行器(Executor),共同完成噪声去除、内容校正、说话者识别以及对话分割等任务,形成一个自我纠错的工作流程。通过对八个科室的7197分钟中文临床对话记录进行处理,并额外使用240分钟的英文对话数据进行便携性测试,该智能体实现了较高的重建准确率(去噪94.7%、内容校正96.9%、说话者识别98.6%、对话分割92.7%),且处理速度比手动方式快3.6倍。在与级联深度学习流程、顺序式非智能体执行方式以及端到端的大上下文模型的对比实验中,该智能体在所有四个处理任务中均表现出更优的性能。架构分析进一步表明,当移除规划器或记忆模块时,系统性能会显著下降(例如,说话者识别准确率降低多达47.6%),这证明了任务协同分解和跨步骤状态保留的重要性。为了评估其对下游模型的影响,我们在相同的训练数据集上,使用智能体生成的SCT对一个独立的开放权重模型(Qwen3-32B)进行了微调。结果显示,智能体生成的SCT显著提升了模型的整体质量评分(提高了3.1到3.7分;P < 0.001;Fleiss’ κ = 0.82),在六项基于临床标准的评估指标上均优于仅使用RUCT进行微调的模型;同时,在外部医学对话基准测试(HealthBench)中,其表现也优于未进行微调的基线模型。这些发现表明,基于智能体构建的临床语料库能够提升LLM的微调效果,并为可靠的医学对话AI开发提供了一个可扩展的框架。