编辑推荐:
在多感官感知中,大脑处理现实世界视听事件的神经机制尚不明确。研究人员通过采集自然主义视频的功能磁共振成像(fMRI)和脑电图(EEG)数据开展研究,发现早期不对称跨模态交互等结果,为理解大脑视听感知提供重要依据。
在日常生活里,我们轻松地看着画面、听着声音,大脑如同一位神奇的 “指挥官”,将视觉和听觉信息完美融合,让我们拥有连贯的感知体验。可这位 “指挥官” 到底是如何工作的呢?当面对现实世界中的视听事件时,大脑的哪些区域会参与其中,又在什么时间进行信息处理呢?过往许多研究,要么单独探索视觉或听觉,要么使用简单、脱离实际的实验刺激,比如视觉闪烁和听觉音调,这些研究难以全面展现大脑在真实场景下的感知过程。所以,揭示大脑处理自然主义视听事件的神经基础,成了神经科学领域亟待攻克的难题。
为了解开这个谜团,西方大学(Western University)和矢量人工智能研究所(Vector Institute for Artificial Intelligence)的研究人员展开了深入研究。他们的成果发表在《Communications Biology》上,为我们理解大脑的视听感知机制带来了新曙光。
研究人员运用了多种关键技术方法。首先,他们精心挑选了 60 个时长 1 秒的自然主义视听视频作为刺激材料,涵盖动物、物体和场景等类别,且内容情感中立。在实验中,22 名参与者分别接受功能磁共振成像(fMRI)和脑电图(EEG)数据采集,在观看视频时还要完成一个奇数球检测任务以保持注意力。之后,通过多变量模式分析和表征相似性分析等方法,研究人员从不同层面解析数据,探究大脑对不同层次信息的处理机制。
下面来看看具体的研究结果:
- 早期视觉区域早期跨模态交互的不对称神经表征:研究人员使用 GIST 描述符和耳蜗图模型分别捕捉低层次的视觉和声学特征。通过感兴趣区域(ROI)分析和搜索光分析发现,初级视觉皮层(V1)与低层次视觉特征模型相关性最强,同时 V1 也与低层次声学特征模型显著相关,然而听觉区域却不代表任何视觉信息,这表明早期跨模态交互存在不对称性,即声学特征在 V1 中早期处理,但视觉信息不在听觉区域处理。
- 高级视觉、听觉和多感官区域的分类和语义表征:研究人员创建分类 RDM 和语义 RDM 来研究高级抽象信息的表征位置。ROI 分析和搜索光结果显示,高级分类信息在视觉和听觉处理的后期阶段被解析,在 V3、高级视觉区域、高级听觉区域以及多感官关联区域都有体现;语义表征也呈现类似趋势,不过部分区域与分类模型相比相关性较低或不显著。这意味着多感官区域整合的可能是多模态刺激的高级概念信息。
- 两分支视听深度神经网络(DNN)未能捕捉早期跨模态交互:研究人员选用一个预训练的两分支 DNN 模型进行对比研究。该模型在训练过程中逐渐学会匹配高级表征,但早期层的视频和音频分支表示无显著相关性,且未展现出与人类 fMRI 反应中类似的早期跨模型交互。这表明构建符合生物学原理的视听神经处理计算模型需要纳入早期融合组件。
- 视听信息表征的时间动态:研究人员利用 EEG 数据和搜索光方法计算时间分辨的 EEG RDMs,以探究不同刺激信息的神经表征随时间的变化。结果发现,视觉和声学特征的神经表征几乎同时出现和首次峰值,但听觉模型的最大峰值时间比视觉模型晚,这意味着从声音中提取显著信息可能需要更多时间积累。高级分类和语义信息在后期才被解析。
- 时空分辨的视听处理:研究人员融合 fMRI 和 EEG RDMs,发现神经活动在刺激呈现后约 60 毫秒从初级感觉区域(V1 和 A1)传播到更高级的感觉和多感官整合区域,之后在 100 毫秒后,大多数视觉和听觉区域持续活动。通过对特定 ROI 的时间分析,进一步揭示了不同区域处理信息的时间差异和层次结构。
在讨论部分,研究人员指出他们的研究揭示了跨模态交互的两个不同阶段。早期阶段,早期视觉区域代表低层次声学信息,这一过程可能确保物体的多模态感知一致;后期阶段,多感官区域整合高级概念信息,这一整合过程可能涉及更复杂的计算。此外,当前的 DNN 模型与大脑在多感官感知方面存在差异,未来需要包含早期跨模态连接的模型来更好地模拟大脑机制。同时,研究还发现视觉和听觉信息在处理速度上既有相似之处又有差异,未来还需进一步明确听觉信息在 A1 和 V1 中的处理时间,以及探索动态视听事件处理过程中自上而下活动的存在和时间点。
这项研究意义重大,它首次系统地探究了大脑在自然主义视听事件中的神经时空处理机制,为理解大脑多感官感知提供了关键线索,有助于推动神经科学、人工智能等多个领域的发展。比如在人工智能领域,研究结果可以启发研究人员构建更接近人类大脑处理机制的模型,提升人工智能系统在多模态信息处理方面的能力。