区域口音变异下人类与自动语音比对系统的性能比较与互补性研究

【字体: 时间:2025年06月19日 来源:Speech Communication 2.4

编辑推荐:

  本研究针对语音比对中区域口音变异带来的挑战,通过对比896名英国英语受试者与x-vector PLDA自动说话人识别系统(ASR)对纽卡斯尔、米德尔斯堡及标准南方英式口音样本的判别表现,发现ASR系统(EER=10.88%,Cllr =0.48)整体优于人类(EER=23.55%,Cllr =0.75),且两者融合未提升性能。研究揭示了人类对高显著性跨口音差异更敏感,而ASR在纽卡斯尔口音样本中表现最差,为司法语音鉴定提供了方法论参考。

  

在司法鉴定和身份验证领域,语音比对技术长期面临两大挑战:人类听觉判断的主观性和自动说话人识别系统(ASR)对口音变异的适应性。当案件涉及区域口音差异时,传统方法可能因听众对口音的熟悉度差异或算法对声学特征的误判而导致错误结论。这一问题在英国尤为突出——纽卡斯尔与米德尔斯堡虽同属英格兰东北部,其口音在声学特征上既有共性又存在微妙差异,常成为司法语音鉴定的"灰色地带"。

为解决这一难题,由文森特·休斯(Vincent Hughes)领衔的研究团队在《Speech Communication》发表了一项开创性研究。团队设计了一套严谨的实验方案:从TUULS和DyViS语料库中选取纽卡斯尔、米德尔斯堡和标准南方英式英语(SSBE)三种口音的男性说话人样本,构建包含45组同说话人和75组不同说话人的比对组合。通过开发专门的在线测试平台,收集896名英国听众的LR式评分(Likelihood Ratio-like scores),同时采用x-vector PLDA(概率线性判别分析)ASR系统进行平行分析。关键技术包括:基于深度神经网络(DNN)的x-vector说话人嵌入提取、PLDA评分校准、以及人类与机器评分的Tippett曲线可视化分析。

整体性能表现
Tippett曲线分析显示,ASR系统在等错误率(EER=10.88%)和似然比代价函数(Cllr
=0.48)上显著优于人类听众(EER=23.55%,Cllr
=0.75)。值得注意的是,人类表现存在巨大个体差异——最佳听众错误率低至0%,而最差者达100%,凸显司法鉴定中依赖单一听觉证据的风险。

口音特异性分析
研究发现人类与ASR对口音变异的敏感性呈现镜像效应:ASR系统在纽卡斯尔口音样本上表现最差(EER提升15%),而人类听众却在该口音上达到最佳判别性能。对于米德尔斯堡与纽卡斯尔这类区域邻近口音的跨口音比对,人类表现出近乎绝对的"不同说话人"判断倾向,反映其对高显著性音段特征的敏感性;而ASR系统则更依赖长期声学特征,其跨口音判别能力与同口音比对相当。

系统互补性探索
通过线性逻辑回归融合人类与ASR评分,研究发现两者未能产生协同效应。这一结果与阿夫尚(Afshan)等学者先前关于风格错配样本的研究结论相悖,暗示区域口音变异可能触发生物听觉与机器算法完全不同的特征提取机制。

这项研究的意义在于首次量化揭示了区域口音变异对人类与机器语音比对的差异化影响。在司法实践中,当案件涉及特定区域口音时,需谨慎选择鉴定方法——ASR系统虽整体更可靠,但对某些口音(如纽卡斯尔)可能存在系统性偏差;而人类专家虽能捕捉音段特征,但个体差异可能影响证据效力。研究团队创新的LR式评分采集方法,为未来建立人类-机器混合鉴定体系提供了标准化框架。正如作者强调的,这项成果不仅推动司法语音学发展,更对深度神经网络的可解释性研究具有启示意义——当ASR系统在特定口音上表现异常时,可能暗示其声学模型存在未被察觉的认知偏差。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号