ADMEDVOICE:首个波兰医学语音数据集助力提升医疗领域自动听写准确性

【字体: 时间:2025年08月17日 来源:Scientific Data 6.9

编辑推荐:

  研究人员针对波兰语医疗领域缺乏专业语音数据集的问题,开发了ADMEDVOICE——首个包含真实场景录音、匿名化及合成语音的波兰医学语音库。该数据集涵盖15小时自然语音(28名说话者)和83小时增强数据,通过微调Whisper模型将WER(词错误率)从24.03%降至13.91%,为低资源语言的医疗ASR(自动语音识别)研究提供了重要基准。

  

在医疗信息化快速发展的今天,自动语音识别(ASR)技术已成为提升临床工作效率的关键工具。然而,专业领域如医疗听写仍面临严峻挑战——尤其是对于波兰语等低资源语言,缺乏高质量的领域适配数据集导致现有模型(如Whisper)在真实医疗场景中错误率居高不下。医疗文本中复杂的术语体系(如拉丁语缩写"LV"可能被误读为罗马数字)、多变的录音环境(从安静诊室到嘈杂手术室),以及严格的隐私要求,共同构成了技术落地的"三重门"。

针对这一瓶颈,格但斯克理工大学(Gdansk University of Technology)多媒体系统部门联合当地医学中心,历时两年打造了ADMEDVOICE数据集。这项发表于《Scientific Data》的研究通过三大创新突破:首先,采集了覆盖7类医疗场景的3132条真实临床短语,包含12.3%的专业术语;其次,采用SALT工具对语音进行匿名化处理,保留语言特征的同时消除身份信息;最后,利用SpeechGen合成技术生成高质量辅助数据。研究团队特别设计了多模态采集方案——在专业录音室(STI>0.9)和真实医疗环境(STI=0.75)同步录制,并使用Rode NT-SF-1等设备捕捉环境噪声,确保数据多样性。

关键技术方法包括:1)基于ICD-9术语库构建文本语料库,通过SSML标记解决缩写歧义;2)采用WavLM-Large模型进行语音匿名化,融合41名参考说话人特征;3)使用NISQA模型评估语音质量,筛选MOS>3.5的样本;4)微调769M参数的Whisper-medium模型,结合CommonVoice等外部数据提升性能。

研究结果方面:

数据特征:最终发布的83小时语料包含53,000条语句,其中自然语音占14小时(9933条),匿名化数据达58小时(32,633条)。频谱分析显示三类数据具有显著差异(图6),匿名化语音在250-4000Hz频段保留了更完整的共振峰结构。

模型性能:基线Whisper在测试集上WER为24.03%,仅使用自然语音微调后降至15.47%。当加入匿名化数据时,WER进一步改善至13.91%,证明数据增强策略的有效性(表6)。值得注意的是,合成语音单独训练时WER仅2.6%,但其泛化性较差,在真实语音测试中WER升至22.9%。

临床应用:针对医疗特有的挑战,研究团队建立了术语变体对照表(表1),如"DCIS"与"ductal carcinoma in situ"的发音映射,有效降低专业术语识别错误。多场景测试表明,模型在急诊科短语(平均时长2秒)和放射科复杂描述(最长30秒)中均表现稳定。

这项研究的突破性在于:首次为波兰语医疗ASR建立了完整的技术生态——从数据采集标准、隐私处理方案到性能评估体系。特别值得关注的是,研究者开创性地验证了匿名化数据可替代20%真实语音而不降低模型效果,这为受隐私法规限制的医学AI研究提供了新思路。随着电子病历的普及,该成果将直接助力东欧地区医疗信息化进程,其方法论对其它低资源语言也具有重要借鉴意义。未来工作将聚焦于术语歧义消解(如根据上下文区分"RTG"指X光检查还是放射治疗),以及开发适用于实时诊疗的流式识别系统。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号