《JAMIA Open》:Benchmarking speech-to-text robustness in noisy emergency medical dialogues: an evaluation of models under realistic acoustic conditions
编辑推荐:
为破解EMS现场高噪环境下STT系统临床关键信息误译难题,瑞士团队构建1980份合成急救对话叠加4类真实噪声,在-2 dB至18 dB SNR梯度下测评6款德语模型。结果显示商用recapp全面领跑,开源Whisper v3 Turbo在mWER与BLEU取得最佳平衡,为院前实时文档与AI决策支持提供可复现选型基准。
当救护车呼啸穿过拥挤车站,引擎、人群、广播交织成80 dB以上混响噪声,急救员却仍须准确口述“1 mg Adrenalin i.v.”并即时录入电子病历。传统STTbenchmark多基于安静录音室,难以覆盖院前高噪、多方言、多语混杂的“地狱声学”场景,导致药物名、给药途径等关键信息一旦被误识,可直接引发用药错误甚至患者死亡。瑞士伯尔尼应用科学大学Denis Moser等意识到“安静实验室数据”与“街头急救现实”的断层,决定构建一套贴近实战的德语EMS声学测评体系,以回答:在真实噪声与极低信噪比(SNR)下,哪些STT系统仍能可靠捕获临床关键术语?
作者首先利用MIMIC-IV重症数据库的99份德语急救对话脚本,借Piper TTS合成男女声、高低语速共99条干净语音;随后从BBC Rewind与ZapSplat选取“人群交谈”“室外交通”“站内嘈杂”“救护车舱内”四类环境噪声,按-15、-20、-25、-30、-35 dBFS五档强度叠加,生成1980条带噪音频,对应SNR -2 dB至+18 dB。接着挑选6款支持德语的STT引擎:瑞士临床级商用系统recapp(基于Whisper v2、数千小时瑞士德语微调),开源Vosk DE 0.21,以及OpenAI Whisper v3 Large/Medium/Turbo,还有仅用1.6 h救援对话微调的RescueSpeech。所有音频逐一转写后,作者采用五维指标评估:WER(词错误率)、mWER(医疗词错误率,基于ICD-10、LOINC、ATC药物库自动标注药品、诊断、操作)、TF-IDF余弦相似度、BLEU、OpenAI text-embedding-3-large语义相似度,并以OLS回归、线性混合效应模型、GPBoost验证统计显著性。
关键技术方法:合成德语急救对话→Piper TTS生成多说话人语音→四类真实环境噪声五档强度叠加→6款STT并行转写→多指标(WER、mWER、BLEU、TF-IDF、语义嵌入)评估→OLS与混合效应模型量化系统-噪声-SNR交互效应。
研究结果
模型性能概览
recapp在所有指标上显著优于其他系统,WER中位数仅0.06,mWER 0.03;开源阵营中,Whisper v3 Turbo以WER 0.09、mWER 0.06、BLEU 84.2夺得最佳平衡,Whisper v3 Large在语义相似度0.945居首,但BLEU略低;RescueSpeech与Vosk则全面落后,BLEU接近0,提示短语结构完全崩溃。
模型效应回归
以recapp为基线,RescueSpeech WER增加+0.518,mWER +0.344,BLEU骤降-85.3分;Vosk WER +0.156,mWER +0.083;Turbo仅WER +0.026,mWER +0.026,证实其几乎复现商用水平。
噪声类型影响
“站内嘈杂”对BLEU损伤最大(-5.1),mWER +0.067,出现“intravenous→intranasal”“Oxygenmaske→Oxygenmass”等危险替换;单纯“交谈”背景影响最小,各指标变动<1点。
SNR梯度效应
-30 dBFS(SNR 13 dB)以上性能平稳;-20 dBFS(SNR 3 dB)出现中度衰退;-15 dBFS(SNR -2 dB,噪声能量高于语音)WER激增+0.196,mWER +0.167,BLEU暴跌-11.5,提示3 dB为EMS转录质量“断崖点”。
验证分析
线性混合效应与GPBoost均重现上述结论,SHAP值显示“RescueSpeech+站内嘈杂+-15 dBFS”是mWER飙升的最大贡献组合。
结论与讨论
研究首次提供面向德语EMS、融合临床术语精度的噪声鲁棒STT基准,证明:
数据规模与方言多样性远重于模型架构,recapp数千小时方言微调优势显著;
Whisper v3 Turbo在开源阵营实现速度-精度最优折中,适合实时院前文档;
公共密集噪声与-2 dB SNR是现有模型共同“滑铁卢”,需针对性声学增强与医疗术语强化训练;
mWER指标可量化安全关键错误,为后续STT选型、采购及临床准入提供可复现标尺。论文发表于《JAMIA Open》,呼吁未来引入真实院前录音、扩展症状与动词词表,并联合说话人分离、时间戳输出,推动STT在EMS无缝接入电子健康档案(EHR)与AI辅助决策。