
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于深度学习的救护车噪声鲁棒语音识别与LLMs生成院前急救诊断摘要系统研究
【字体: 大 中 小 】 时间:2025年07月09日 来源:International Journal of Medical Informatics 3.7
编辑推荐:
针对院前电子病历填写效率低、环境噪声干扰大的问题,研究人员提出结合噪声鲁棒语音识别(NRSR)与大语言模型(LLMs)的联合训练模型,通过双分支特征编码和选择性注意力机制,将CER降至52.92%,Qwen2.5-7B-Instruct模型生成的诊断摘要使病历填写时间从20分钟缩短至14分钟,为急救信息化提供创新解决方案。
在救护车鸣笛声与生命监护仪警报交织的嘈杂环境中,急救医生需要同时完成患者救治和电子病历记录——这个看似简单的任务,却因环境噪声干扰和专业人才短缺成为院前急救的"阿喀琉斯之踵"。据统计,浙江省2024年平均每份院前电子病历需耗时20分钟,在严重创伤等紧急情况下,传统手工记录方式更是严重拖累急救效率。如何突破噪声屏障实现高效信息记录,成为提升急救成功率的关键突破口。
浙江大学医学院附属第一医院的研究团队在《International Journal of Medical Informatics》发表的研究,创新性地将深度学习的噪声鲁棒语音识别技术与大语言模型相结合,构建了名为NRSR的联合训练系统。研究人员采集了浙江省杭州市余杭区和湖州市的真实救护车音频数据(EMSSData-1/2),结合开源汉语语音库AISHELL-1,设计出包含增强分支和直接分支的双路径模型。通过深度可分离卷积和选择性注意力机制优化特征编码器,并创新性地引入Transformer-XL的相对位置编码,最终实现复杂噪声环境下52.92%的字符错误率(CER)。在LLMs生成环节,研究发现Qwen2.5-7B-Instruct模型在"结构化提示"条件下生成的诊断摘要,其患者信息准确性(API)和格式标准化(FSS)评分甚至超越人工记录,将病历填写时间缩短30%。
关键技术方法包括:1) 基于真实救护车环境噪声数据集EMSSData-1/2和AISHELL-1的混合训练策略;2) 融合语音增强与识别的双分支联合模型架构;3) 采用深度可分离卷积和选择性注意力机制的特征编码器设计;4) 针对Baichuan2-7B-Chat、Llama3.1-8B-Instruct和Qwen2.5-7B-Instruct三种LLMs的提示工程优化。
【噪声鲁棒语音识别结果】
通过改进的特征编码器(DeNoiseformer)在含噪声的AISHELL-1数据集上将CER从Conformer的75.07%降至65.30%,在真实救护车音频EMSSData-1上更实现42.8%的错误率降低。引入语言模型后,CER进一步降至52.92%,显著优于Efficient-Conformer等对比模型。
【急救诊断摘要评估结果】
在三种提示策略中,"结构化提示"使Qwen2.5-7B-Instruct的API和FSS评分分别达4.2±0.7和4.3±0.8,经Tukey HSD检验显示其显著优于Baichuan2-7B-Chat(p<0.05)。而包含丰富背景信息的"专家提示"反而因信息过载导致性能下降,揭示提示工程中"少即是多"的设计哲学。
【病历效率对比】
在实际应用测试中,采用该系统的医生完成电子病历时间从平均20分钟缩短至14分钟,且生成内容在关键疾病信息覆盖度上优于传统记录方式。
这项研究不仅证实了语音智能识别在复杂急救场景的可行性,更开创性地构建了从声学信号到临床决策的端到端解决方案。特别值得注意的是,系统在浙江省卫健委"云平台"的部署框架下,通过三级等保和商用密码认证确保数据安全,既解决了噪声环境下的语音识别难题,又通过LLMs的语义理解能力弥补了字符级识别误差。尽管在方言适应性和最新医学术语覆盖方面存在局限,但研究者提出的RAG(检索增强生成)技术优化方向,为后续构建专业院前急救知识库指明了路径。该成果的临床价值不仅体现在时间效率提升,更在于通过实时信息传输打破院前院内信息壁垒,让急诊医生能提前制定救治方案——这在心搏骤停等"黄金四分钟"急救场景中,可能成为改写患者命运的关键变量。
生物通微信公众号
知名企业招聘