口音差异如何影响声纹识别：基于AI语音克隆的认知偏差研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月22日 来源：Scientific Reports 3.9

编辑推荐：

　　本研究通过AI语音克隆技术，创新性地分离声纹身份与口音特征，探究口音差异对声纹识别的影响。研究发现，即使控制语言熟悉度，受试者仍存在10%的偏差将不同口音误判为不同身份，揭示了口音认知偏差独立于语言熟悉度的神经机制，为跨文化语音识别技术开发提供理论依据。

在全球化交流日益频繁的今天，人们常需要识别带有不同口音的英语使用者。然而，当一位波兰口音和一位中国口音的人先后发言时，听众是否会不自觉地认为这是两个不同的人？这种认知偏差背后隐藏着怎样的神经机制？Shane C. Santos团队在《Scientific Reports》发表的研究，通过AI语音克隆技术首次量化了口音对声纹识别的独立影响。

传统观点认为，声纹识别依赖喉部解剖结构形成的声学特征（如基频和共振峰频率）。但近年研究发现，语言熟悉度会显著影响识别准确率——例如英语母语者能更好区分德语而非汉语说话者。更有趣的是，婴儿研究显示，元音差异足以干扰声纹识别，暗示口音可能独立影响认知。然而，这些研究未能分离口音特征与声纹身份的交互作用。

为解决这一难题，研究者采用检索式语音克隆技术（Retrieval-Based Voice Cloning, RVC），从英语口音档案库提取英国、波兰和中国口音的语音模式，将其剥离原始身份后植入8个克隆声纹（4男4女）。这种创新方法首次实现声纹身份、口音特征和语句内容的三重解耦，生成192组实验素材。通过2×2×2设计（身份相同/不同×口音相同/不同×语句相同/不同），研究团队让1000名受试者完成声纹配对判断任务。

关键技术方法

研究采用RVC技术构建实验素材，从CSTR VCTK语料库选取基础声纹，通过口音移植创建标准化刺激。采用广义线性混合效应回归（GLMER）分析数据，控制信心水平和口音熟悉度的影响，通过最大随机效应结构模型处理不平衡数据。

研究结果

1.
身份对比效应
身份差异使受试者将不同声纹误判为同一人的偏差增加62%，证实声纹仍是识别核心特征。
2.
口音独立影响
如图1所示，口音差异独立产生10%的识别偏差。当不同身份者使用相同口音时，受试者更易误判为同一人（p<0.001），印证"单口音预期"假说。
3.
语句内容调节作用
语句差异对识别的影响取决于口音状态：当口音相同时，语句差异不显著改变识别偏差；但当口音不同时，语句差异会放大识别偏差（β=0.231, z=6.524）。

结论与意义

该研究首次证明口音会独立于语言熟悉度干扰声纹识别，这种认知偏差源于人类对"单口音说话者"的固有预期。在理论层面，发现语音特征（phonetic features）与声纹线索（indexical cues）存在神经表征分离；在应用层面，为跨境安防声纹识别系统开发提供认知校准依据。未来研究可拓展至更多元口音组合，或结合fMRI探索相关神经机制。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号