编辑推荐:
本文通过功能性磁共振成像(fMRI)和表征相似性分析(RSA),研究大脑对不同熟悉度声音的神经表征。发现个人熟悉声音在大脑中的表征更精细,这一成果有助于深入理解语音感知机制,为相关领域研究提供重要参考。
研究背景
人类的声音在交流中具有高度灵活性,但也因声学变异性大带来感知挑战。识别个体声音需克服说话者内部的变异性,而熟悉度对这一过程有重要帮助。以往研究虽有涉及,但未明确说话者内部变异性在塑造声音(或面孔)表征中的作用,且未操纵熟悉度变量。本研究旨在解决两个关键问题:一是大脑对语音身份的表征是否符合 “聚合”(telling together)和 “区分”(telling apart)的理论框架;二是说话者熟悉度如何影响大脑对语音身份的反应模式。
研究方法
- 参与者:27 名成年参与者完成了行为和 fMRI 实验,其中 1 名参与者的数据因 fMRI 采集和扫描任务表现问题被排除,最终分析样本包含 26 名参与者(19 名女性,5 名男性,1 名非二元性别,1 名无性别;平均年龄 26.1 岁;4 名左撇子)。所有参与者均为英国英语母语者,实验前签署知情同意书,并获得相应报酬。
- 实验刺激:参与者需聆听三种不同熟悉度的声音,包括个人熟悉的声音(Familiar)、通过实验室训练熟悉的声音(Lab)和未训练过的新声音(New)。个人熟悉声音来自参与者熟悉的人,Lab 和 New 声音从 LUCID 语料库中选取,所有声音在区域口音和明显性别上进行匹配。
- 实验流程:实验分为三个阶段。在熟悉化阶段,参与者聆听 Familiar 和 Lab 声音的示例,并完成三方强制选择语音身份分类任务;在扫描前的复习阶段,参与者进行简短的身份分类任务复习,并熟悉 New 声音;在 fMRI 扫描阶段,参与者执行明确的语音身份识别任务,同时收集行为和 fMRI 数据。
- 数据分析方法:对行为数据进行编码和统计分析,计算平均准确率和无偏命中率(Hu),并使用线性混合模型进行统计检验。对 fMRI 数据进行预处理,包括对齐、去扭曲、标准化等操作,然后使用 RSA 和搜索 light 方法分析大脑对不同声音的反应模式,同时构建假设模型表征差异矩阵(RDMs)和声学模型 RDMs 进行比较。
研究结果
- 行为学结果:参与者对 Familiar 声音的识别准确率显著高于 Lab 和 New 声音(Familiar:98.9%,Lab:87.6%,New:85.4%),表明熟悉度对语音识别有显著影响。
- 神经表征结果
- “聚合” 与 “区分” 框架验证:研究发现,在大脑反应模式中,涉及 Familiar 声音的组间比较(Familiar-Lab 和 Familiar-New)比涉及不太熟悉的 Lab 和 New 声音的组内比较(Lab-Lab 或 New-New),表现出更大的神经反应差异,但仅分析 Lab 和 New 声音时,未发现组间差异大于组内差异的证据。此外,部分区域存在组内比较产生的神经反应差异大于组间比较的情况,这表明 “聚合” 和 “区分” 框架不能完全解释大脑对不同熟悉度声音的反应。
- 熟悉度对大脑反应模式的影响:在所有感兴趣的语音、面孔和人物选择区域(除初级听觉皮层、部分颞上回、眶额叶皮层和右枕叶下皮层外),熟悉度对大脑反应模式有显著影响。与预测相反,Familiar 声音产生的组内差异最大,而 Lab 和 New 声音的组内差异显著较低且统计上等效,这意味着参与者对 Familiar 声音的识别准确率更高,同时大脑对其反应模式的分辨率更好。
研究讨论
- 研究发现的意义:本研究表明,个人熟悉的声音在大脑中具有更高的组内和组间差异,反映出大脑对熟悉声音的表征更精细,这与其他研究中熟悉说话者语音可懂度优势的报告相符。熟悉度在面孔和人物选择区域的影响,可能反映了聆听熟悉声音时更广泛的知识参与,例如对说话者外貌、情绪和意图的推断。
- 部分区域结果分析:部分感兴趣区域(如双侧初级听觉皮层及其周围)未显示出显著的统计效应,这与现有语音处理模型一致,表明语音结构和身份相关线索在听觉处理层级的后期阶段被提取。此外,面孔选择区域中,梭状回前部比枕叶后部更多地参与语音处理,反映了不同区域在处理面部信息时的功能差异。
- 实验室训练声音的特点:尽管参与者对 Lab 声音的识别准确率较高,但与个人熟悉声音相比,其大脑反应模式的组内和组间差异较低,在扫描任务中的识别准确率也显著降低。这表明实验室训练建立的语音表征可能在面对新的聆听情境时泛化能力较差,“熟悉度” 在语音身份研究中的操作化定义需要进一步思考。
- 未来研究方向:未来研究可增加每个熟悉度水平的声音数量,或使用不同暴露量和类型的多个实验室训练声音,以更清晰地确定对说话者内部变异性的反应分辨率如何随熟悉度增加而出现。同时,本研究挑战了熟悉人识别的神经框架概念,表明熟悉度可能基于包含更多语音细节的神经表征,而不是简单的刺激不变的语音识别单元或参考模式。大脑识别语音身份的机制可能是熟悉语音模式匹配与学习到的说话者内部变异性表征的结合。}