
-
生物通官微
陪你抓住生命科技
跳动的脉搏
口音差异如何影响声纹识别:基于AI语音克隆的认知偏差研究
【字体: 大 中 小 】 时间:2025年08月22日 来源:Scientific Reports 3.9
编辑推荐:
本研究通过AI语音克隆技术,创新性地分离声纹身份与口音特征,探究口音差异对声纹识别的影响。研究发现,即使控制语言熟悉度,受试者仍存在10%的偏差将不同口音误判为不同身份,揭示了口音认知偏差独立于语言熟悉度的神经机制,为跨文化语音识别技术开发提供理论依据。
在全球化交流日益频繁的今天,人们常需要识别带有不同口音的英语使用者。然而,当一位波兰口音和一位中国口音的人先后发言时,听众是否会不自觉地认为这是两个不同的人?这种认知偏差背后隐藏着怎样的神经机制?Shane C. Santos团队在《Scientific Reports》发表的研究,通过AI语音克隆技术首次量化了口音对声纹识别的独立影响。
传统观点认为,声纹识别依赖喉部解剖结构形成的声学特征(如基频和共振峰频率)。但近年研究发现,语言熟悉度会显著影响识别准确率——例如英语母语者能更好区分德语而非汉语说话者。更有趣的是,婴儿研究显示,元音差异足以干扰声纹识别,暗示口音可能独立影响认知。然而,这些研究未能分离口音特征与声纹身份的交互作用。
为解决这一难题,研究者采用检索式语音克隆技术(Retrieval-Based Voice Cloning, RVC),从英语口音档案库提取英国、波兰和中国口音的语音模式,将其剥离原始身份后植入8个克隆声纹(4男4女)。这种创新方法首次实现声纹身份、口音特征和语句内容的三重解耦,生成192组实验素材。通过2×2×2设计(身份相同/不同×口音相同/不同×语句相同/不同),研究团队让1000名受试者完成声纹配对判断任务。
关键技术方法
研究采用RVC技术构建实验素材,从CSTR VCTK语料库选取基础声纹,通过口音移植创建标准化刺激。采用广义线性混合效应回归(GLMER)分析数据,控制信心水平和口音熟悉度的影响,通过最大随机效应结构模型处理不平衡数据。
研究结果
身份对比效应
身份差异使受试者将不同声纹误判为同一人的偏差增加62%,证实声纹仍是识别核心特征。
口音独立影响

如图1所示,口音差异独立产生10%的识别偏差。当不同身份者使用相同口音时,受试者更易误判为同一人(p<0.001),印证"单口音预期"假说。
语句内容调节作用
语句差异对识别的影响取决于口音状态:当口音相同时,语句差异不显著改变识别偏差;但当口音不同时,语句差异会放大识别偏差(β=0.231, z=6.524)。
结论与意义
该研究首次证明口音会独立于语言熟悉度干扰声纹识别,这种认知偏差源于人类对"单口音说话者"的固有预期。在理论层面,发现语音特征(phonetic features)与声纹线索(indexical cues)存在神经表征分离;在应用层面,为跨境安防声纹识别系统开发提供认知校准依据。未来研究可拓展至更多元口音组合,或结合fMRI探索相关神经机制。
生物通微信公众号
知名企业招聘