非线性声乐现象(NLP)对注意力的干扰作用:一项多实验感知研究

【字体: 时间:2025年09月22日 来源:Bioacoustics 1.5

编辑推荐:

  本刊推荐:这项研究通过10项感知实验系统探讨了非线性声乐现象(NLP)(包括频率跳跃、幅度调制、次谐波和混沌)对人类注意力的影响。研究发现NLP(尤其是混沌)显著增加主观干扰度和烦恼度,但在双耳分听和客观任务中实际注意力分配影响有限。结果表明,虽然NLP能增强声音的显着性(salience),但人类听众能有效屏蔽这些干扰源,这对理解声音沟通的演化和噪声污染管理具有重要意义。

  

摘要

婴儿哭声、犬吠和刺耳尖啸为何如此令人不安且难以忽视?常见解释是其显着性通过不规则发声(irregular phonation)导致的声乐粗糙度(vocal roughness)和不可预测性而增强。一项包含10项感知实验的综合研究证实,人类听众认为非线性声乐现象(nonlinear vocal phenomena, NLP),包括频率跳跃(frequency jumps)、幅度调制(amplitude modulation)、次谐波(subharmonics)和混沌(chaos),在婴儿哭声和成人非语言发声(nonverbal vocalisations)中具有干扰性和烦恼性,这一结论适用于原始录音和经过NLP操作的再合成版本。至少对于测试范围内的声乐,干扰和烦恼主要源于NLP期间不规则、粗糙的音质(voice quality),其次才是不可预测性和发声机制之间的分岔(bifurcations)。与主观评分的明显影响相反,NLP在双耳分听任务(dichotic listening tasks)中对注意力分配的影响有限,在序列回忆(serial recall)和加速分类(speeded classification)实验中,其存在并未显著增强对主要任务的干扰。因此,尽管困扰婴儿哭声和许多动物叫声中典型的不规则发声被认为令人不快且主观上分散注意力,但听众可能出人意料地擅长屏蔽或主动避免此类干扰源。

引言

众所周知,听到婴儿哭声是多么令人分心和情绪痛苦,仿佛哭声的声学特征经过自然选择的完美雕琢,以最优方式吸引和保持听众的注意力。由于无法忽视哭声确保婴儿的需求得到即时关注,理论上这对婴儿具有适应性。然而,照顾者通常认为哭泣非常痛苦,并且哭泣是虐待的常见原因,包括严重的摇晃婴儿综合征(shaken baby syndrome)病例。同样,各种动物物种的紧急信号,如警报呼叫和恐惧尖叫,似乎旨在通过利用接收者的注意力偏差(attentional biases)触发即时反应并防止习惯化(habituation)。例如,犬吠响亮、爆发性、粗糙且时间不规则——这些正是倾向于吸引接收者注意的声学特征。某些刺激以自下而上(bottom-up)方式不由自主地吸引注意力的能力被称为显着性(salience),它被视为对更受控、自愿、自上而下(top-down)注意力分配的补充。一个教科书例子是我们在嘈杂鸡尾酒会上专注于某人讲的笑话(自上而下注意力),但当有人叫我们名字时会被不由自主地分心(自下而上注意力)。

我们名字的声音只有在学会其社会意义后才变得显着,但某些低层次声学特征使任何声音突显到意识中。这些特征是什么?最广泛接受的听觉显着性预测因子是不可预测性、响度(loudness)及其突然增加,以及可能的一些频谱特征,如高音调(high pitch)。然而,目前的证据尚无定论,主要是因为缺乏隔离和测量自下而上听觉注意力的金标准。已经尝试了多种方法,成功率各异:主观评估(评分、显着事件注释、双耳设置中选择关注通道)、行为结果(任务表现、反应时间、按节拍器敲击)和生理反应,如瞳孔扩张(pupil dilation)、微眼跳抑制(microsaccade inhibition)、脑电图(EEG)或皮肤电反应(galvanic skin response)。不幸的是,同一研究中很少采用多种测量方法,因此不清楚它们是否都针对同一现象。另一个重要条件是,明显的自下而上注意力强烈依赖于语境,并且可能与自上而下注意力无法完全分离。许多理论假设了不需要的分心的独立语义和低层次听觉处理成分:例如, consistently发现与任务无关的言语(task-irrelevant speech)非常难以忽视。显着性文献中另一个长期争论是局部变化(local change)还是不可预测性更显着;许多近期解释倾向于违反期望(violation of expectations)作为注意力捕获的主要驱动力。这使我们回到婴儿哭声和犬吠等发声中的不规则发声: resulting voice既粗糙又不可预测地可变,这两种特性都可能促成注意力捕获。

粗糙度(Roughness)是一种基本的心理声学(psychoacoustic)品质,与触觉和视觉模态有密切相似之处,对应于耳蜗(cochlea)临界频带(critical bands)内的快速包络波动(envelope fluctuations),尤其是在约30–50至200–300 Hz的频率范围内。听觉粗糙度常被引用为显着性的重要预测因子,但参见其他研究。像犬吠和婴儿哭声这样的发声通过被称为非线性声乐现象(NLP)的发声(vocal production)不规则性变得粗糙。例如,声带(vocal folds)振荡产生的周期性音调(periodic tone)可以通过肌肉动作(如犬哀鸣或鸟类鸣叫中的颤音)或次级振荡器(如人类的杓状会厌褶(aryepiglottic and ventricular folds)或其他猿类的声带膜(vocal membranes))进行幅度和/或频率调制。如果调制频率位于粗糙度范围内, resulting sound被感知为粗糙。粗糙度也可能由声带的复杂振动引起,单独或与附加振荡器结合。两种常见的振动机制是次谐波(以基频(fundamental frequency)有理分数产生的附加频率)和确定性混沌(deterministic chaos)(看似随机的振荡,听起来类似于宽带噪声(broadband noise)),两者都增加感知粗糙度。NLP增强信号显着性的另一种可能途径是:不同发声机制之间突然、不可控的频率跳跃和转变或分岔构成不可预测的声学事件,可能使发声更显着,从而防止习惯化。除了不可预测外, abrupt transitions和音区变化(register changes)可能触发 acoustic startle reflex,特别是如果它们伴随响度突然增加。

有充分证据表明NLP在高唤醒(high-arousal)叫声中更常见,并且听众将其解释为痛苦的迹象。实验性操纵听觉粗糙度和个体NLP也增加了人类非语言发声的感知情绪强度(perceived emotion intensity),这反过来可以使它们更显着。然而,NLP捕获注意力的直接证据仍然稀缺。在人类中,心理声学研究测量了简单刺激(如具有正弦频率调制(sinusoidal frequency modulation)的纯音(pure tones))的干扰效应,但尚不清楚这能在多大程度上推广到更复杂和生态相关(ecologically relevant)的刺激,并且在这些研究中粗糙度对显着性没有明显影响。在生物声学(bioacoustics)中,两项研究比较了猫鼬对带有和不带次谐波的自然警报呼叫的反应,并报告了对带有次谐波的呼叫觅食减少和习惯化减慢。然而,这两项研究的样本量都非常小:每种条件4-5次呼叫,对约10只动物进行约20次回放。假设NLP对行为测量的影响可能低于10%,并且动物的反应是高度概率性的,如人类研究所表明,则需要数千次回放才能获得足够的效力(power)。此外,呼叫可能在其他重要方面有所不同,而不仅仅是次谐波的存在或缺失,这是其他回放研究的进一步限制,这些研究依赖于对比带有和不带NLP的自然记录发声,如马鹿(red deer)和尼罗鳄(Nile crocodiles)。也许更令人信服的是, experimentally inserting频率跳跃和短白噪声(white noise)片段(旨在模仿混沌)到土拨鼠(marmots)和鸟类的警报呼叫中增强了听众的警惕性(vigilance),在暴露于具有频率跳跃的纯音的爬行动物中也观察到这一点。

考虑到不规则发声的适应性价值(adaptive value)的理论重要性以及在野外回放研究中获得足够数据的困难,特别令人惊讶的是尚未在人类中进行大规模感知测试。除了与声乐沟通演化(evolution of vocal communication)的相关性外,显着性具有重要的实际意义:人们反感被分心,并且由于全球噪声污染(global noise pollution),侵入性声音(intrusive sounds)日益受到关注。关于犬吠对听众影响的研究表明,吸引注意力的相同信号可能被认为特别烦人(annoying),当听到明显的痛苦信号(如婴儿哭声)时,移情(empathise)倾向会加剧这种情况。换句话说,感知负价(perceived negative valence)可能是显着性和烦恼度的另一个重要预测因子,并且听众强烈将NLP与模糊发声(如呻吟(moans))中的负价联系起来。此外,任何类型的粗糙声音通常都是厌恶的(aversive),也许是因为它们同步了涉及显着性处理的大规模神经网络(large-scale neural networks),尽管语境因素和先前经验可以调节文化刺激(如重金属音乐(heavy metal music))中听觉粗糙度的审美评价(aesthetic evaluation)。

总结来说,具有NLP片段的不规则发声,在婴儿哭声和许多其他人类和非人类动物的非语言发声中都十分丰富,可能通过三种机制促进注意力捕获和烦恼度。首先,大多数NLP使声音粗糙,而粗糙度本身可能是显着的和厌恶的。其次,频率跳跃和发声机制之间的其他分岔构成不可预测的声学事件,违反听众的期望,并可能使其更难以脱离或习惯化。第三,生物信号中的NLP与负价相关,而痛苦的感知反过来使听众不适,难以忽视声音。本研究使用各种主观和客观测试来调查NLP在婴儿哭声和成人人类非语言发声中所预测的干扰和烦恼度。与先前研究相比,采用参数语音合成(parametric voice synthesis)来分别操纵每种NLP类型,结合了完美的实验控制和高生态效度(ecological validity)。

进行了十项感知实验,从对干扰度和烦恼度的明确评分开始,进展到更隐性的注意力捕获测量。它们分为四个集群呈现。所有十项实验均用JavaScript编程以最大化可定制性,并由总共830名参与者在线完成,这些参与者从Prolific招募:422名女性,405名男性,3名未知;年龄平均值±标准差=32±11,范围[18, 75]。所有数据、代码、模型、收敛诊断(convergence diagnostics)、额外图表和其他输出均在线补充材料中以markdown笔记本形式提供。

实验集群1:自然发声的主观评分

在第一个实验(实验1)中,听众被呈现原始、未修改的人类非语言发声录音,包括婴儿哭声和成人人类的强烈发声,这些发声具有各种自然存在的NLP,并被要求指出他们发现这些发声在吸引注意力、分散注意力、烦人和真实性方面的程度。然后,将每个发声中存在的NLP类型和数量与听众的评分相关联。预测发声中的NLP片段数量及其总持续时间将与感知烦恼度和潜在干扰相关。真实性评分作为后续实验的基准。具体来说,如果NLP的存在使即使原始发声听起来也不那么真实,我们预计在再合成发声(resynthesised vocalisations)中操纵NLP时也会发生同样的情况。

方法

刺激

两种类型的非语言发声被用作此及所有后续实验的源材料。第一个是成人人类产生的非语言发声语料库。这些是真实录音,从社交媒体获取,捕捉了非常强烈的情感体验,如蹦极或运动事故中受伤。由于异常高的唤醒水平(arousal level),这些发声许多包含丰富的NLP种类。这里选择的发生先前用于另一项NLP研究,因此已经可获得高质量的、经过感知验证的、带有操纵NLP的再合成版本。第二个发声来源是已发布的开源婴儿哭声集合,即EnesBabyCries1A语料库,包括24名0.5至3.5个月大婴儿的许多小时录音。

实验1中的实验刺激是158个自然的、未操纵的、富含NLP的人类非语言发声录音,包括82个成人人类的尖叫、咆哮、呻吟和咕噜声,以及76个婴儿哭声的单音节。刺激持续时间从0.27到2.96秒不等(平均1.2秒)。基于作者的手动注释,除13个外,所有刺激都包含一些NLP。使用soundgen R包计算每个录音的平均谐波噪声比(harmonics-to-noise ratio, HNR)和感知粗糙度。HNR测量时间序列中的自相关(autocorrelation)量,它是发声障碍(dysphonia)或一般音质的常见度量,因为任何非周期性噪声(aperiodic noise)的存在都会降低HNR。粗糙度是一种更具体的心理声学特征,使用soundgen库中的modulationSpectrum函数进行估计。

程序

每位参与者在两个具有不同响应量表的区块中对100个随机选择的刺激进行评分。声音可以重放,并且没有响应时间限制。区块和区块内试验的顺序对每位参与者随机化,并且同一刺激从不出现两次。响应在从0到100的水平视觉模拟量表(Visual Analog Scale)上记录。量表标注如下:

  • - 注意力:如果您意外听到这种发声,它会吸引您多少注意力?{几乎没注意到……完全注意}
  • - 干扰:想象您正在学习,并不断在隔壁听到这样的声音。忽略它有多难?{一点也不分散注意力……极其分散注意力}
  • - 烦恼度:有些声音听起来令人不快。您对反复听到这种发声有多大反感?{一点也不烦人……极其烦人}
  • - 真实性:这种发声听起来真实吗,像您在现实生活中可能听到的东西?{不真实……非常真实}

参与者

本实验及所有其他实验的参与者在Prolific上招募,纳入标准为:英语流利,无自述听力问题,且先前批准率在75%或以上。未进行正式的功效分析(power analyses),但所有样本量均选择为确保在相关分析单位(例如,每个声音和每个量表的评分)有足够的数据点,并且对感兴趣的估计(例如,每种NLP类型效应的可信区间)有足够的精度, within reasonable economic constraints。例如,实验1中的效应估计不确定性最多为±5%,这对于描述所有非平凡效应是足够的。

实验1的样本包括97名参与者(45名女性,51名男性,1名未指定;年龄32±11,范围18至71)。另外四名参与者被排除在主分析之外,因为他们的评分与每个刺激和响应量表的平均评分相关性非常差(r < 0.2),表明随机响应。在此样本量下,158个目标发声中的每一个在每个响应量表上平均被评分15.6次(范围5至27)。

数据分析

所有实验数据的统计建模均使用R包brms 2.22.0通过贝叶斯多级模型(Bayesian multilevel models)进行,使用默认或轻度信息性保守先验(conservative priors)。效应总结为后验分布(posterior distributions)的中位数和95%可信区间(credible intervals, CI)。大多数模型包括所有由实验设计证明合理的组级(“随机”)截距和斜率,只要最大复杂模型有足够数据收敛即可。这确保报告的效应应推广到其他听众和发声。实验1中连续量表(0到100)的评分在将响应略微重新缩放为{x/102 + .001}以使其处于(0, 1)范围内后,被建模为β分布(beta-distributed)。

NLP效应的模型(模型1)在brms语法中为:respNorm ~ scale * nlp_n + scale * nlp_dur_rel + (scale|sound) + (scale * nlp_n + scale * nlp_dur_rel|subject),其中respNorm = 标准化评分(N = 9869次试验),scale = 响应量表(具有四个水平的因子),nlp_n = 发声中NLP片段的数量(不包括频率跳跃),nlp_dur_rel = 所有NLP片段的总持续时间占音节持续时间的比例(在NLP片段重叠的情况下上限为100%),sound = 被评分的刺激(具有158个水平的因子),subject = 参与者ID(具有97个水平的因子)。因此,NLP的数量和相对持续时间被假定具有加性效应(additive effects),为每个量表和每个受试者独立估计,并为每个声音在每个量表上附加随机截距。使用多元回归(multiple regression)同时模拟每个量表上单个注释NLP的部分效应(partial effects),如下(模型2):respNorm ~ (nlp_am_rel + nlp_subh_rel + nlp_chaos_rel + nlp_fj) * scale + (1|sound +subject),其中nlp_am_rel是幅度调制的相对持续时间,nlp_subh_rel是次谐波的,nlp_chaos_rel是混沌的,nlp_fj是频率跳跃的数量。粗糙度和HNR的效应建模如下(对于粗糙度和HNR分别有模型3和模型4):respNorm ~ scale * roughness + (scale|sound) + (scale * roughness|subject) 和 respNorm ~ scale * HNR + (scale|sound) + (scale * HNR|subject)。

结果

与婴儿哭声极其分散注意力的刻板印象相反,在这种情况下,成人人类的非语言发声实际上被评为更分散注意力(+9.1% [3.2, 15.2])和更烦人(+12.1% [5.8, 18.5]),但也不如婴儿哭声真实(?23.0% [?29.6, ?16.2])。测试的发声包含各种类型和数量的手动注释NLP。控制NLP片段数量,任何NLP的总持续时间相对于发声持续时间预测了更高的干扰评分(+11.8%,95% CI [2.3, 21.2],对于50% NLP vs. 无NLP)和烦恼度评分(+15.1% [5.5, 24.8]),尽管NLP持续时间对注意力评分的影响高度不确定(+5.6% [?4.1, 15.2])。有趣的是,听众还将自然的、未操纵的发声评为如果它们包含NLP则更不自然或真实(?22.2% [?34, ?10],对于50% NLP vs. 无NLP)。然而,具有相同数量NLP但分布在几个片段中的发声被评为稍微更真实(+5.7% [1.8, 9.7],如果NLP持续时间为50%,则两个片段 vs. 一个片段)。因此,主要是长的单个NLP片段让听众觉得奇怪。

当使用多元回归同时分析每个特定NLP类型的部分效应时,获得了非常相似的结果,但次谐波除外。例如,具有50% vs. 0%的混沌预计会使发声分散注意力增加6.0% [1.7, 10],烦人增加7.7% [3.6, 11.7]。混沌和幅度调制也被认为较不真实(分别?7.4% [?11.4, ?3.5]和?13.5% [?17.9, ?9.1]),而频率跳跃对注意力相关量表有强烈的积极影响,而不被认为不自然(真实性?3.4% [?10.3, 3],对于两次跳跃 vs. 无跳跃)。HNR对任何评分没有明显影响。然而,心理声学粗糙度是注意力(+17.6% [5.7, 29.2],对于最大 vs. 最小测量粗糙度)、干扰(+20.9% [9.5, 31.8])和烦恼度(22.9% [11.2, 33.9])的稳健预测因子。

总之,具有频率跳跃、幅度调制或混沌的人类发声被评为比没有这些NLP的发声更烦人和主观上更分散注意力。次谐波听起来并不分散注意力或烦人,并且其他NLP的效应不能通过谐波性(harmonicity)(HNR)下降来解释——也就是说,仅仅使声音周期性更差或更有噪声不足以引起干扰。相反,观察到的效应可能是由感知粗糙度的增加驱动的,并且在较小程度上是由在发声机制之间的每次分岔处引入新的声学事件驱动的,在频率跳跃的情况下最为明显。

实验集群2:合成发声的主观评分

上述NLP显着性相关性分析的主要局限性在于,表观效应可能是虚假的,因为NLP自然更常见于响亮、高音调和其他声学上“极端”的发声。当然,所有刺激的强度都为了感知实验而标准化,但高基频(fundamental frequency)和明亮的音质(bright voice quality)与强上谐波(upper harmonics)仍然可以揭示发声原本有多响亮。因此,一种更令人信服的方法是在不改变原始发声其他声学特性的情况下实验性地操纵NLP。这种方法在实验2a-2d中使用:在相同响应量表上获得人类非语言发声的主观评分,但在以不同类型和数量的NLP重新合成 otherwise identical 刺激之后,这些NLP在成人(实验2a)、短婴儿哭声(实验2b)或较长序列的婴儿哭声(实验2c-d)的再合成发声中被操纵。假设(1)将NLP添加到 otherwise identical 的再合成发声会使它们更分散注意力和烦人,以及(2)NLP片段的数量及其总持续时间都会对评分产生独立影响。

刺激

用于操纵NLP的所有实验刺激的再合成均使用源滤波器分离(source-filter separation)的相同原理:使用参数语音合成创建具有所需数量和类型NLP的完全合成声源(synthetic acoustic source),然后将原始幅度和频谱包络(spectral envelopes)的平滑版本复制到合成声源上,使其听起来尽可能彼此相似且与原始原型相似,除了对应于每种NLP条件的音质的目标变化。该流程在R中使用soundgen库和自定义脚本实现。该算法是开源的,经过验证,并且可完全复现。

幅度调制的频率以及次谐波和混沌的深度从人类非语言发声的典型值范围中随机选择。所有音节的音高轮廓(pitch contours)都经过手动校正提取,以确保即使高度非周期性的原始录音也具有相对平滑的音高轮廓,适合在无NLP条件下进行再合成。

实验2a:刺激是244个再合成的人类非语言发声,未经修改取自Anikin等人。这些包括61个独特的发声,每个持续时间在0.29到2.5秒之间,在四种条件下再合成:无NLP、幅度调制、次谐波和混沌(61×4=244)。NLP片段的时间和持续时间与原始录音相同。

实验2b:从22名不同婴儿中选择婴儿哭声的单音节,每个包含至少1.25秒的浊音(voicing)。然后它们以预定数量的片段和系统变化的持续时间用NLP重新合成。幅度调制、次谐波和混沌可以影响录音的30%、60%或100%。当量为总持续时间的30%或60%时,NLP插入一个或两个片段(例如,一个混沌片段影响呼叫持续时间的30%,或两个各15%的片段)。此外,通过添加两个基频的随机瞬时变化创建了一个频率跳跃条件,这有效地将哭声的短段(约10%)在频率上向上或向下平移1到12个半音(semitones)。跳跃通常(80%的时间)在音高上升时向上发生,在音高下降时向下发生,这是频率跳跃的典型模式。因此,有17种NLP条件:无NLP、频率跳跃、影响哭声持续时间100%的AM/次谐波/混沌,以及影响哭声持续时间30%/60%的AM/次谐波/混沌(在一个或两个片段中)= 1 + 1 + 3 × 1 + 3 × 2x 2 = 17。有43个原型,因此有43 × 17 = 731个刺激。

实验2c:30个较长的婴儿哭声序列,持续时间从6.6到10.2秒不等,并包含几个哭声音节,被手动注释为音节以进行再合成,分割成音节,并为每个音节提取音高轨迹。单个音节在五种NLP条件下重新合成:无、AM、次谐波、混沌和混合(所有三种NLP类型加在一起)。至少一个NLP片段被添加到每个注释音节;NLP的数量和时间为每个音节随机选择。再合成的音节然后连接回序列,并添加了?20 dB的背景街道噪声以掩盖这些相当长且复杂的序列中再合成的可能伪影(artefacts)(每个原型的所有5种NLP条件使用完全相同的噪声录音)。

实验2d:30个长的婴儿哭声片段,每个59到61秒长,用操纵的NLP重新合成。所有音节无论其持续时间和浊音如何都重新合成,并且NLP在所有

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号