“方言如何影响人类对自然与 AI 增强语音的分类偏差”:AI 语音技术研究的新洞察

【字体: 时间:2025年05月07日 来源:Computers in Human Behavior: Artificial Humans

编辑推荐:

  在 AI 辅助语音技术广泛应用的当下,区分自然与 AI 增强语音变得愈发关键。研究人员开展了关于不同方言下语音分类偏差的研究,发现听者能区分二者但并不完美,且存在 “人类分类偏差”。这对 AI 语音技术的应用和防范风险意义重大。

  随着人工智能(AI)技术的飞速发展,AI 辅助语音技术在各个领域得到了广泛应用。它不仅能够克隆或伪装声音,还能创造出各种带有不同口音、方言和语言的合成声音。在带来诸多便利的同时,这一技术也存在被滥用的风险,比如用于制造深度伪造内容、实施 “特警出击” 攻击和金融诈骗等。因此,判断听众能否可靠地区分人类和 AI 增强语音,以及对传统上在技术中较少呈现的语言变体的先验经验和期望是否会影响这种能力,成为了亟待研究的重要问题。
在这样的背景下,来自 Abertay University 的研究人员展开了深入研究。他们进行了两项实验,旨在探究听众在标准苏格兰方言和地区苏格兰方言中,区分自然人类语音和 AI 增强语音的能力。研究成果发表在《Computers in Human Behavior: Artificial Humans》上。

研究人员采用了信号检测理论框架,通过一系列精心设计的实验流程来收集数据。在实验过程中,他们使用了来自 12 名男性双语者的录音,这些双语者能说苏格兰标准英语(Scottish Standard English,SSE)和邓迪苏格兰语(Dundonian Scots)。通过 ElevenLabs.io 平台为每个原始录音生成 AI 增强版本,总共得到 288 个录音样本。参与者需要在实验中判断听到的语音是人类还是 AI 增强的。

在实验 1 中,100 名参与者大多来自苏格兰。结果显示,参与者区分人类和 AI 增强语音的能力高于随机水平,总体 A′得分达到 0.62。但方言对敏感性没有显著影响,邓迪苏格兰语和苏格兰标准英语的 A′得分分别为 0.63 和 0.61。然而,参与者存在 “人类分类偏差”(Human Categorisation Bias),总体 B″D得分为 0.22,且这种偏差在邓迪苏格兰语中更为明显,其 B″D得分为 0.41,而苏格兰标准英语中基本无偏差(B″D=-0.01)。

实验 2 聚焦于来自英格兰东部和南部的 100 名参与者,他们对邓迪苏格兰语的熟悉度较低。结果表明,他们区分人类和 AI 增强语音的能力同样高于随机水平,但总体敏感性低于实验 1 的参与者,A′得分为 0.54。在分类偏差方面,虽然总体上仍存在 “人类分类偏差”(B″D=0.27),但邓迪苏格兰语和苏格兰标准英语之间的偏差差异未达到显著水平,其 B″D得分分别为 0.17 和 0.33。

综合两项实验结果,研究表明听众能够区分自然人类和 AI 增强语音,但能力并不完美。方言熟悉度会影响敏感性,实验 1 中熟悉两种方言的苏格兰参与者表现更好。同时,听众普遍存在 “人类分类偏差”,且这种偏差在不同方言和熟悉度下表现不同。对于熟悉邓迪苏格兰语的听众,这种偏差在该方言中更为突出;而对于不太熟悉方言的听众,偏差在两种方言中的分布相对更均匀。

这项研究具有重要的理论和实践意义。在理论上,它揭示了语言熟悉度效应不仅适用于自然语音,也适用于区分自然和人工语音。同时,“人类分类偏差” 的存在及其在不同方言中的差异,为语音处理的理论研究提供了新的视角。在实践中,AI 增强语音技术的高度真实性既有助于支持语音技术应用中的语言多样性,但也可能被用于恶意目的。研究中发现的 “人类分类偏差”,尤其是在地区方言中的表现,可能使某些语言社区更容易受到语音欺诈或操纵的威胁。这对执法部门、政策制定者和相关利益者提出了挑战,也为未来的研究指明了方向,比如可以进一步研究如何通过干预措施来改变分类偏差,以降低 AI 语音技术带来的风险。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号