编辑推荐:
研究人员为解决未知频谱声源定位难题,构建理想观察者模型,揭示定位机制,助力声学研究发展。
在神秘的听觉世界里,声音定位就像一场有趣的 “寻宝游戏”。我们的耳朵如同两个敏锐的 “小侦探”,通过接收声音来判断声源的方向。然而,这个过程并非一帆风顺。声音在传播过程中,其携带的方向信息会与声源自身的频谱特征混在一起。打个比方,就好像不同颜色的颜料混合在一起,让人难以分辨。而且在现实生活中,我们听到的声音频谱千变万化,是未知的,这就好比在 “寻宝游戏” 中,增加了许多干扰因素,使得声音定位变得更加困难。目前的声音定位模型大多在假设听者已知声源频谱的情况下进行研究,这显然与真实场景不符,无法真正解释人类在复杂环境中是如何准确进行声音定位的。
为了揭开这个谜团,来自比利时安特卫普大学工程管理系和物理系的研究人员 Jonas Reijniers、Glen McLachlan、Bart Partoens 和 Herbert Peremans 展开了深入研究。他们的研究成果发表在《Scientific Reports》上,为我们理解人类声音定位机制提供了新的视角。
研究人员采用了一种基于贝叶斯推理的正则化方法,对之前提出的理想观察者模型进行了扩展。这个模型就像是一个聪明的 “决策大师”,它能够根据各种已知信息,做出最合理的判断。研究人员利用从环境声音和人类语音数据库构建的生态有效先验,来模拟人类听者在面对未知频谱声源时的判断依据。同时,他们还对原始模型进行了改进,测试了不同声学特征作为输入时模型的表现。
在研究过程中,研究人员用到了几个关键的技术方法。首先是理想观察者模型,它将声音定位看作是一个编码和解码的过程,通过贝叶斯规则来更新对声源方向的判断。其次,研究人员使用了蒙特卡罗模拟方法,通过大量的模拟实验来重现实验结果,评估不同模型的性能。此外,他们还从两个公开的在线数据库中获取数据,计算声源频谱的先验信息。
研究结果如下:
- 声源先验:通过分析两个不同数据库(CREMA-D 和 ESC-50)构建的声源先验协方差矩阵和平均频谱幅度,发现尽管两个数据库性质不同,但在频谱梯度(SG)表示下,协方差矩阵具有相似性。这意味着可以使用单一的通用先验来处理未知声源12。
- 纹波密度、深度和相位对定位误差的影响:研究发现,随着纹波密度的增加,实验中的极角误差率先增大后减小,在 1 - 2 ripples/octave 左右达到峰值。当模型考虑 SG 先验时,模拟结果与实验趋势相似,但误差率更小。对于纹波深度,实验误差率几乎随深度线性增加,各模型也呈现类似趋势,但不同模型的误差率与实验相比存在偏差。纹波相位也会影响误差率,实验中相位为 0 时误差率最高,模型中使用正 SG 和同侧 SG 输入时也出现了类似现象345。
- 平坦频谱声源定位:在定位平坦频谱声源时,使用新的通用先验(双耳 / 同侧 SG)的理想观察者模型,能够使误差更接近实验观测水平,尤其是同侧 SG 输入时效果更明显。而使用之前研究中的特定窄先验,误差则远小于实验值67。
研究结论和讨论部分指出,使用双耳 SG 和双耳互谱强度差(ILD)作为输入,与使用双耳频谱幅度相比,不仅信息更紧凑,还能将定位过程分为基于双耳线索(ITD 和 ILD)的水平角定位和基于单耳线索(如同侧 SG)的极角估计两个平行过程,这与心理声学实验和生理学观察结果一致。模型模拟结果表明,人类听者在声音定位时可能使用双耳信息,但更依赖同侧输入。此外,研究还发现,尽管有生理迹象表明只有正 SG 的频率通道用于极角估计,但模型模拟并不支持这一假设。而且,使用生态有效 SG 先验的模型对平坦频谱刺激的定位实验数据拟合更好,这表明人类听者可能更倾向于使用通用的、多用途的频谱先验,而不是特定情境下的先验,这可能是一种进化适应策略,更注重应对意外刺激的稳健性,而非单纯追求定位精度。
这项研究意义重大,它为理解人类声音定位机制提供了重要依据,有助于进一步推动声学、神经科学等相关领域的发展。未来,研究人员还将继续探索人类听者是否会更新频谱先验,以及更新的速率和程度等问题,这将为我们深入了解人类听觉系统的奥秘带来更多期待。