自动语音识别技术评估听力词识别测试的初步研究:机器学习在临床听力学中的应用

【字体: 时间:2025年06月21日 来源:Speech Communication 2.4

编辑推荐:

  本研究针对临床言语感知测试中人工评分存在的主观差异和效率问题,探索了自动语音识别(ASR)系统对PBK(Phonetically Balanced Kindergarten)词表的评分能力。通过对比3种ASR模型(Whisper large/medium、Ursa)与7名人类评分者对1200个正常/模拟语音失真样本(辅音删除、1-6 kHz低通滤波)的识别结果,发现ASR对未失真单词的识别准确率与人类相当(最高90.7% vs 91.8%),且在一致性指标(Fleiss Kappa)上显著优于人类(未失真样本0.69 vs 0.17)。该研究为ASR辅助儿童听力评估提供了技术验证,有望提升测试效率和标准化程度。

  

在临床听力学领域,标准化言语感知测试如PBK(Phonetically Balanced Kindergarten)词表评估是人工耳蜗植入候选筛选和术后效果监测的重要工具。然而传统人工评分方式存在明显局限性:一方面,不同临床医师对发音偏差的判断标准存在主观差异,导致评分者间信度(inter-rater reliability)波动;另一方面,逐一听写记录耗时费力,尤其对儿童患者而言,测试过程往往需要重复多次。这些痛点促使多伦多病童医院(Hospital for Sick Children)的研究团队思考:能否借助日臻成熟的自动语音识别(ASR)技术来优化这一流程?

研究团队设计了严谨的对照实验,采集12名听力正常成人朗读的1200个PBK单词作为基线样本,并通过工程化处理模拟临床常见的发音缺陷——包括首尾辅音删除、1/2/4/6 kHz低通滤波等7种条件,共生成6972个测试样本。这些材料分别输入3种主流ASR系统(OpenAI的Whisper large/medium版本、Ursa)进行识别,同时由7名人类评分者独立判读。通过混合效应模型和Fleiss Kappa一致性分析发现:对于未失真单词,顶级ASR模型(Ursa)的识别准确率(90.7%±1.52%)已接近人类专家水平(91.8%±2.16%);而在语音失真样本中,ASR对首辅音删除和1 kHz滤波条件的错误识别率最高,这与人类评分者的错误模式高度一致。更具突破性的是,ASR系统展现出远高于人类的评分一致性(未失真样本Kappa值0.69 vs 0.17),证明机器评分可显著降低主观偏差。

关键技术包括:1)采用PBK标准化词表构建语音库;2)通过辅音删除和1-6 kHz低通滤波模拟语音失真;3)对比Whisper large/medium和Ursa三种ASR模型的识别性能;4)使用混合效应模型和Fleiss Kappa进行统计学分析。

【ASRs和人类评分者对未失真PBK单词的正确分类相似】结果显示,所有评分者对高频词(如"ship")的识别准确率普遍高于低频词(如"wreath"),且ASR系统的错误集中发生在语音相似的词对上(如"bat"与"pat"),这种错误模式与人类听觉感知的局限性高度吻合。

【讨论】证实当前ASR技术已具备替代人工评分的潜力,特别是在需要高度标准化的临床场景中。研究者特别指出,ASR系统对语音失真样本的响应模式与人类听觉系统相似,例如对1 kHz低通滤波(模拟严重听力损失)样本的识别准确率骤降,这种特性使其特别适合用于听力补偿设备的调试。

【结论】该研究为ASR技术应用于临床听力学评估建立了概念验证,其核心价值在于:通过机器评分的一致性优势,可减少20-30%的临床工时消耗,同时消除人工评分带来的15-20%主观偏差。未来研究方向包括优化ASR模型对儿童发音特征的适应性,以及开发实时评分系统用于动态听力补偿调试。论文发表于《Speech Communication》,为数字医疗技术在康复医学中的应用提供了新范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号