语音简化与积极的评价以及其他语用功能相关联

《Speech Communication》:Phonetic reduction is associated with positive assessment and other pragmatic functions

【字体: 时间:2025年09月19日 来源:Speech Communication 3

编辑推荐:

  本文通过语料库分析和对照实验,揭示语音减少与语用功能的相关性,发现英语和西班牙语中减少形式与积极评价、话题结束、转话语气等表达显著相关,并证实积极语调下减少更常见。研究结果为对话系统自然度提升提供新方向。

  语音科学的一个核心目标是全面记录人类语音中传递意义的元素。本文提供了将语音简化(phonetic reduction)纳入这一记录的证据。通过分析对话数据,我们发现语音简化在美式英语和墨西哥西班牙语中都较为常见,并且具有多种重要的语用功能,包括表达积极评价。对于美式英语,我们在受控实验中确认了人们在使用积极语气说话时,确实倾向于使用更多的简化形式。

在语音技术领域,虽然语音简化在人类语言中具有重要作用,但传统上并未被广泛认为是有用的特征。研究者们通常将简化视为人类说话者不完美表现的结果,而非需要模仿的能力。然而,随着机器学习的发展和可用数据量的增加,越来越多的特征被发现能够提升模型性能,即使这些特征缺乏感知或语言学上的动机。例如,OpenSmile系统包含了6552个特征,包括语音震颤的二阶导数峰度和零交叉率的第三四分位数。目前主流的方法是忽略特征的意义,而是通过预训练学习特征,如HuBert层的1024个特征,这些在许多任务中表现良好,包括那些原本被认为需要人工特征的任务。

尽管如此,仍有价值的可感知特征存在,因为它们可以支持可解释模型,使我们能够完全理解模型的行为。此外,这些特征还可以作为可理解的控制参数用于语音合成,有助于语言模式的清晰描述以支持学习者,并为机器学习提供在较少数据下实现良好性能的助力。本文展示了语音简化是一个具有感知性和意义性的特征,不仅可听,而且在表达积极评价方面尤为重要。

本文的其余部分结构如下:第二部分回顾了相关研究,第三部分描述了使用的数据及其标注方法,第四部分介绍了初步探索,第五部分描述了一个系统性的语料库研究,识别了与简化相关的多种功能,第六部分描述了一个生产研究,确认了其中的一种联系,第七部分进行总结。

语音简化并非当前语音技术的主流话题,尽管一些研究者多年来一直呼吁将其纳入语调特征库。这些研究强调语音可以明显简化但仍能保持足够的可理解性,并指出其在对话式语音中的重要性。此外,有研究发现语音简化在判断语用相似性方面具有相关性。三个研究小组还开发了能够控制简化程度的实验性合成器,但这些系统尚未投入实际应用,商业合成器也未支持此类控制。因此,语音简化仍然是一个较为小众的话题。

尽管有一些关于语音简化所服务的语用功能的零散知识,但这些功能并未对应用型语音研究者产生强烈的吸引力。这里存在一个“鸡与蛋”的问题:对简化功能的详细研究需要工具,而工具开发者没有动力添加简化建模功能,除非有证据表明其潜在用途。本文旨在启动一个良性循环,即对简化重要性的更高认识将导致更好的工具,反过来又将促进对简化及其应用的更深入理解。

为了实现这一目标,我们采用语料库方法,首先对感知到的简化进行标注。我们选择了对话数据,而非朗读语音,因为重要的潜在应用与对话有关。我们选择了两种语言:英语,作为已研究较多但仍有新发现的领域;西班牙语,作为非日耳曼语言的初步探索。我们根据五个标准选择了数据:展示多样化的语用功能、具有多样化的说话者、音频质量良好、对话发生在朋友或同龄人之间(因为简化更常见于非正式对话)、以及尽可能使用我们熟悉的方言、话题和对话风格,以便自信地进行标注。我们从自己的数据中选择了几段对话,这些数据最初是为了另一个目的而收集的,即随后在另一种语言中的部分重演。

由于没有现成的自动简化检测方法,我们决定手动标注数据。尽管词长容易测量,且缩短通常是简化的一个常见相关因素,但这并不能作为所有简化现象的可靠代理。我们关注的是感知到的简化,这一选择较为特殊,因为大多数先前的研究都标注了简化相关因素,如较短的音素、更集中的元音、更多的共时现象,以及各种语言特定语音规则的影响,如英语中的辅音尾删除。

我们的标注过程基于一个轻量级的指导方针,如图1所示。颗粒度条款反映了我们的工作假设,即对话中的简化大多是超音段性的。然而,简化可以在不同的时间尺度上发生,从一个音素、一个音节或一个词,到整个对话或更长的语音样本。由于我们对语用功能感兴趣,我们关注的是“中期”简化,即在几个词或短语层面的简化。在实践中,标注主要集中在覆盖一个或几个词的区域,这取决于感知到的发音变化的粒度。

我们对标注的主观性进行了评估,由第四位作者进行标注,她当时对标注的目的并不知情。她接受了大约10分钟的解释和示例,学习了考虑所有因素的重要性:说话的内容、语调和上下文。她随后标注了31分钟的英语和25分钟的西班牙语对话。结果显示,对于两种语言,不同程度的简化非常常见,分别占26%和31%的标注区域。这些标注可供下载,音频也可在另一网站上获取。

为了大致评估这些标注的主观性,我们让第二位标注者对2分钟的英语和西班牙语进行标注。两位标注者之间的Cohen’s Kappa值为0.25,对于四个类别;对于二分类的0或1与2或3的区分,Kappa值为0.35。注意到第二位标注者倾向于感知更多的简化,我们还计算了相关性,结果为0.57,表明了一定程度的共识。

虽然可以通过更结构化的过程或利用更多客观的简化相关因素来获得更高的共识,但这样会违背我们直接感知的方法,并可能过早地限制我们可能发现的内容。此外,对标注者之间意见差异的详细分析显示,这些差异通常只影响一个或两个词,很少超过一个点。因此,对于下面的分析,这些差异只是可以接受的小噪声来源。此外,这些复杂的因素似乎不太可能与我们最终调查的任何语用功能有太大关联。

在初步分析中,我们使用定性归纳方法开发假设。对于英语,我们首先检查了所有被标记为简化的区域,并记录了在这些时间观察到的功能。然后我们将这些分为几个类别。在重新审视实例的过程中,我们进一步细化这些类别,最终得出九个类别:(1)填充词、感叹词和回音,(2)语调载体如“like”和“you know”,(3)不确定性标记,(4)重述,(5)可预测的词,(6)被弱化的短语,包括插入语,(7)话题结束动作,(8)说话权争夺,(9)个人感受,包括偏好和愿望。这些类别既不全面也不互斥,例如,有一个案例中,简化发生在一方让步以解决双方语音重叠的时刻。

为了剔除与简化无关的类别,我们编写了九个类别的简短描述,并使用这些描述对剩余21分钟的数据进行了系统标注,同时包括两个控制类别:负面评估和正面评估。在分析中,我们发现正面评估类别与简化有显著关联。在九个功能中,除了语调载体和填充词外,其他功能都与简化显著相关。重述和可预测的词与简化的关联符合文献,但与其他功能的关联则是新的发现。

对于西班牙语,我们的程序类似。我们检查了同一语料库中的对话,但不与简化标注的集合重叠。经过多次迭代后,我们得出七个类别:不确定性标记、话题结束动作、说话权争夺、个人感受、被弱化的短语、正面评估和一致,其中只有后者在英语中未被发现。这表明简化在不同语言中可能扮演不同的语用角色。

为了进一步验证正面评估与简化的联系,我们设计了一个受控实验。实验分为两个阶段:首先,我们获得了相同短语的正面和中性版本;然后,我们获取了对这些版本中哪一个是更简化的判断。由于没有合适的自动方法,我们选择了感知方式来进行判断。

在实验过程中,我们注意到正面版本的语音通常比中性版本更快,而加快的语速是已知的简化原因之一。因此,为了排除这一混淆因素,我们采取了两个措施:首先,我们让每个参与者先进行正面版本的录制,然后重复中性版本,以确保中性版本的时长不短于正面版本。其次,如果中性版本的时长短于正面版本,参与者会重新录制中性版本,直到其时长与正面版本相近。

参与者被要求在耳机中聆听刺激材料,并通过屏幕进行判断。我们设计了类似的界面,如图3所示,参与者需要判断哪一个是更清晰的。为了确保所有判断都被记录,我们没有提供跳过选项,而是要求参与者在不确定时尽量做出最佳猜测。

在实验过程中,我们注意到参与者的判断存在差异,这可能与他们的个人经验和感知有关。总体而言,所有判断中,正面版本的语音被感知为更简化的次数更多。这在统计上是显著的,通过广义线性混合效应模型得出,估计值为0.43,t统计量为26,p值为6e-112。

尽管这个实验没有设计用于系统性地调查其他因素,但我们进行了两个后验分析。首先,我们分析了个体之间的差异。结果显示,不同参与者的判断存在差异,从编号12的参与者,其生产强烈支持我们的假设,到编号1的参与者,其判断与预期方向相反。这表明,尽管简化与正面评估的联系普遍存在,但它并不适用于所有英语说话者,值得进一步研究。

其次,我们分析了每个音素的趋势。结果显示,大多数音素在正面版本中被感知为更简化,但有些音素则相反。后验分析中,我们注意到两个因素可能解释这一现象:一是各种形式的创新或强调,这可以解释一些音素的相反趋势;二是普遍的可简化性,如“interesting”、“actually”、“computer”和“security”中的非重读音节,以及“summer”中的/m/音。这些观察表明,普遍简化的音素可能缺乏进一步简化的潜力。

综上所述,本文的主要贡献是发现简化与重要的语用功能有关,如表7所示,特别是在美式英语中的正面评估。这一发现支持了将简化视为一种语调特征的观点,即它不仅是说话者经济性的结果,还可以作为表达不同语用功能的手段。未来的工作应致力于开发能够根据任意区域调整简化程度的语音合成器,这不仅将支持各种应用,还将促进大规模测试简化是否有助于感知更多的正面信息或其他功能。此外,还应优先开发能够逐句估计语音简化程度的工具,这些工具将不可避免地具有语言特定性。目前,仅有一些针对英语和西班牙语的开源工具可供使用。

未来的研究问题之一是,简化是什么类型的特征。我们的发现表明,简化通常是超音段性的,正如语调特征一样,它与词汇和语音内容以复杂的方式相互作用。此外,简化似乎与其他特征结合形成“语调构造”。例如,虽然多个功能涉及简化,但它们通常不会被混淆,这可能是因为其他语调特征的贡献,如正面评估中的语速和音量,话题结束中的慢语速、长停顿和低音量。不确定性标记可能涉及慢语速,说话权争夺可能涉及快语速和高音调,而可预测的词可能涉及低音调和低音量。因此,我们应将简化描述为语调特征配置的一部分,而非单独传递这些意义。这为将简化视为一种语调特征提供了合理理由,尽管还需要进一步研究。

我们的发现已经显著拓展了对语音特征的理解:简化不仅是说话者不谨慎的表现,也不是各种心理过程的副产品,而是一种“第一性”特征,能够帮助传递意义。因此,简化应被纳入语音科学家和技术开发者的工具箱中。

更广泛地说,我们的发现表明,仍有许多关于语音中有意义特征的有趣问题需要探索。通过分析对话数据,这种丰富而多样的数据形式可以成为这一探索的有效策略。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号