口音差异如何影响声纹识别:基于AI语音克隆的认知偏差研究

【字体: 时间:2025年08月22日 来源:Scientific Reports 3.9

编辑推荐:

  本研究通过AI语音克隆技术,创新性地分离声纹身份与口音特征,探究口音差异对声纹识别的影响。研究发现,即使控制语言熟悉度,受试者仍存在10%的偏差将不同口音误判为不同身份,揭示了口音认知偏差独立于语言熟悉度的神经机制,为跨文化语音识别技术开发提供理论依据。

  

在全球化交流日益频繁的今天,人们常需要识别带有不同口音的英语使用者。然而,当一位波兰口音和一位中国口音的人先后发言时,听众是否会不自觉地认为这是两个不同的人?这种认知偏差背后隐藏着怎样的神经机制?Shane C. Santos团队在《Scientific Reports》发表的研究,通过AI语音克隆技术首次量化了口音对声纹识别的独立影响。

传统观点认为,声纹识别依赖喉部解剖结构形成的声学特征(如基频和共振峰频率)。但近年研究发现,语言熟悉度会显著影响识别准确率——例如英语母语者能更好区分德语而非汉语说话者。更有趣的是,婴儿研究显示,元音差异足以干扰声纹识别,暗示口音可能独立影响认知。然而,这些研究未能分离口音特征与声纹身份的交互作用。

为解决这一难题,研究者采用检索式语音克隆技术(Retrieval-Based Voice Cloning, RVC),从英语口音档案库提取英国、波兰和中国口音的语音模式,将其剥离原始身份后植入8个克隆声纹(4男4女)。这种创新方法首次实现声纹身份、口音特征和语句内容的三重解耦,生成192组实验素材。通过2×2×2设计(身份相同/不同×口音相同/不同×语句相同/不同),研究团队让1000名受试者完成声纹配对判断任务。

关键技术方法

研究采用RVC技术构建实验素材,从CSTR VCTK语料库选取基础声纹,通过口音移植创建标准化刺激。采用广义线性混合效应回归(GLMER)分析数据,控制信心水平和口音熟悉度的影响,通过最大随机效应结构模型处理不平衡数据。

研究结果

  1. 1.

    身份对比效应

    身份差异使受试者将不同声纹误判为同一人的偏差增加62%,证实声纹仍是识别核心特征。

  2. 2.

    口音独立影响

    如图1所示,口音差异独立产生10%的识别偏差。当不同身份者使用相同口音时,受试者更易误判为同一人(p<0.001),印证"单口音预期"假说。

  3. 3.

    语句内容调节作用

    语句差异对识别的影响取决于口音状态:当口音相同时,语句差异不显著改变识别偏差;但当口音不同时,语句差异会放大识别偏差(β=0.231, z=6.524)。

结论与意义

该研究首次证明口音会独立于语言熟悉度干扰声纹识别,这种认知偏差源于人类对"单口音说话者"的固有预期。在理论层面,发现语音特征(phonetic features)与声纹线索(indexical cues)存在神经表征分离;在应用层面,为跨境安防声纹识别系统开发提供认知校准依据。未来研究可拓展至更多元口音组合,或结合fMRI探索相关神经机制。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号