从原始音频到结构化数据：一种基于智能代理的流程，可提升医疗领域大型语言模型（LLM）的性能

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《npj Digital Medicine》：From raw audio to structure: an agent-based pipeline that boosts medical LLM performance

【字体：大中小】 时间：2026年06月09日 来源：npj Digital Medicine 15.1

编辑推荐：

　　摘要大型语言模型（LLMs）在临床交流中的应用日益广泛，但其可靠性依赖于高质量的对话语料库。现实中的医患对话记录常常受到噪声、转录错误、说话者重叠以及对话结构碎片化的影响，这限制了这些数据在下游模型训练中的使用效果。本文提出了一种基于智能体的转录框架，该框架能够自动将原始的非结构

摘要

大型语言模型（LLMs）在临床交流中的应用日益广泛，但其可靠性依赖于高质量的对话语料库。现实中的医患对话记录常常受到噪声、转录错误、说话者重叠以及对话结构碎片化的影响，这限制了这些数据在下游模型训练中的使用效果。本文提出了一种基于智能体的转录框架，该框架能够自动将原始的非结构化对话转录文本（RUCT）转换为适合LLM微调的结构化对话转录文本（SCT）。该系统整合了三个协同工作的模块——规划器（Planner）、记忆模块（Memory）和执行器（Executor），共同完成噪声去除、内容校正、说话者识别以及对话分割等任务，形成一个自我纠错的工作流程。通过对八个科室的7197分钟中文临床对话记录进行处理，并额外使用240分钟的英文对话数据进行便携性测试，该智能体实现了较高的重建准确率（去噪94.7%、内容校正96.9%、说话者识别98.6%、对话分割92.7%），且处理速度比手动方式快3.6倍。在与级联深度学习流程、顺序式非智能体执行方式以及端到端的大上下文模型的对比实验中，该智能体在所有四个处理任务中均表现出更优的性能。架构分析进一步表明，当移除规划器或记忆模块时，系统性能会显著下降（例如，说话者识别准确率降低多达47.6%），这证明了任务协同分解和跨步骤状态保留的重要性。为了评估其对下游模型的影响，我们在相同的训练数据集上，使用智能体生成的SCT对一个独立的开放权重模型（Qwen3-32B）进行了微调。结果显示，智能体生成的SCT显著提升了模型的整体质量评分（提高了3.1到3.7分；P < 0.001；Fleiss’ κ = 0.82），在六项基于临床标准的评估指标上均优于仅使用RUCT进行微调的模型；同时，在外部医学对话基准测试（HealthBench）中，其表现也优于未进行微调的基线模型。这些发现表明，基于智能体构建的临床语料库能够提升LLM的微调效果，并为可靠的医学对话AI开发提供了一个可扩展的框架。

联系信箱：

粤ICP备09063491号

摘要

热点排行