《Discover Animals》:Learnt formant modulation via upper vocal tract movements in a marine mammal
编辑推荐:
本研究针对非人哺乳动物能否通过学习主动控制共振峰(Formants)这一关键问题,以一只成年雄性港海豹(Phoca vitulina)为对象,通过操作条件反射训练其在上声道(upper vocal tract)运动中产生条件化发声(CD),并与基线发声(BL)进行纵向对比。研究发现海豹能习得动态共振峰调制能力,其F1、F3的调制深度(Modulation Depth)和频谱熵(Spectral Entropy)在CD发声中出现显著分化,机器学习进一步证实两种发声类型的声学空间分离度随训练增强。该成果为哺乳动物 Vocal learning 的神经机制与演化起源提供了新证据。
在动物通信研究中,共振峰(Formants)作为上声道(upper vocal tract)共振产生的频率峰值,是编码个体身份、体型大小乃至情绪意图的关键声学线索。人类凭借精细的共振峰动态调制能力实现元音区分与语言交流,然而非人哺乳动物是否具备类似的声音学习能力,始终是学界争论的焦点。海豹等鳍足类动物因其独特的发声可塑性成为理想模型,但既往研究缺乏纵向追踪与多参数量化分析。为此,Raimondi团队在《Discover Animals》发表最新案例研究,通过长达150天的训练实验,首次系统揭示港海豹通过上声道运动习得共振峰调制的神经行为学基础。
本研究采用操作条件反射(operant conditioning)范式,对一只圈养成年雄性港海豹“Tattoo”进行训练。实验设计包含基线发声(BL)与条件化发声(CD)双阶段:BL通过原有指令“cantando”引发,要求发声持续3秒且无口腔运动;CD则结合声音指令与手势提示(手指开合),引导海豹在发声时同步完成口腔开闭循环,目标产生“wa”音节重复。实验历时164天,共采集1095段发声(455段BL,640段CD)。声学分析通过Praat软件提取前三个共振峰(F1、F2、F3)的时序轮廓(formant contours),并计算变异系数(CV)、调制深度(Modulation Depth)及频谱熵(Spectral Entropy)以量化共振峰动态特性。统计模型采用线性混合模型(LMM)检验时间与发声类型的交互效应,最后通过UMAP降维与随机森林(Random Forest)分类评估声学空间分离度。
共振峰轮廓值的变化
F1与F3在实验初期无显著差异,但随训练推进呈现分化趋势:BL的F1频率显著下降(p<0.001),而CD保持稳定;F3在两类发声中部呈下降趋势,但BL的下降斜率更陡(p=0.045)。F2虽在CD中整体更高(p<0.001),但未发现与发声类型的交互作用。
共振峰调制程度的演变
变异系数(CV)分析显示,F1的CV在BL中下降更显著(p<0.0001),但实验末期CD的F1-CV仍高于BL;F2-CV仅在CD中呈现上升趋势(p<0.05)。调制深度(Modulation Depth)的结果更为突出:CD的F1与F3调制深度增长斜率显著高于BL(F1: p<0.001; F3: p<0.001),表明条件化训练特异地增强了共振峰频率的时序波动强度。
共振峰调制的可预测性提升
频谱熵(Spectral Entropy)分析发现,CD的F1、F2、F3熵值均随训练显著降低(p<0.05),而BL仅F1熵值上升。熵值降低反映CD发声的共振峰轮廓趋于规律化,符合“wa”音节重复的预期声学模式。
声学空间分离的机器学习验证
基于F1与F3调制参数的UMAP-随机森林模型显示,实验末期发声分类的AUC达0.90,显著高于初期(AUC=0.64, p<0.01)。这表明训练有效扩大了BL与CD在声学特征空间的区分度。
本研究通过多维度声学指标证实,港海豹能通过操作条件反射习得上声道运动驱动的共振峰调制能力。该发现不仅复现了既往个例(如海豹“Sprouts”),更通过纵向设计揭示共振峰调制(formant modulation)随训练渐进增强的特性。尤为关键的是,研究首次引入频谱熵与机器学习量化声学特征演化,凸显F3在区分发声类型中的重要作用,提示海豹可能通过舌部辅助运动实现精细共振峰控制。成果为理解哺乳动物Vocal learning的演化路径提供了实验证据,挑战了“仅灵长类具备复杂声学学习能力”的传统观点,为跨物种比较神经生物学开辟新视角。