洞察关系事件:视觉世界范式揭示事件感知与语言的动态交互机制及其认知意义
《Brain Research》:Apprehending relational Events: The visual world paradigm and the Interplay of event perception and language
【字体:
大
中
小
】
时间:2025年10月19日
来源:Brain Research 2.6
编辑推荐:
本研究探讨视觉世界范式(VWP)如何揭示事件感知与语言处理的实时交互机制。通过眼动追踪技术,团队发现人类能够快速从单次注视中提取事件角色和结构信息(如施事者与受事者),且该过程与语言理解及产生存在早期且连续的动态协调。该研究为理解感知-语言接口提供了新视角,对认知神经科学及心理语言学具有重要理论价值。
当我们观察周围世界时,不仅会注意到人、物体的颜色、形状和纹理,还会迅速捕捉到它们之间的互动关系——比如一个女孩推男孩这样的事件。尽管传统观点认为提取事件和关系信息需要主动努力和多次注视,但越来越多的视觉研究表明,人类能够快速且自动地从单次注视中提取关系信息,包括事件结构(即谁对谁行动)。这些发现表明,事件结构的某些方面通常无需大量视觉探查即可被感知。然而,关于视觉事件如何被感知和表征——尤其是对于复杂事件(例如涉及施事者(Agent)和受事者(Patient)之外角色的事件,或多个显著解释的事件,如“追逐”与“逃跑”)——以及这些新兴表征在事件解释和言语产生过程中如何与语言交互,仍存在许多未知。
视觉世界范式(Visual World Paradigm, VWP)为探究这些感知-语言接口问题提供了强大工具。它通过揭示哪些事件表征在何时被激活,以及探究语言如何实时引导事件解释,来帮助研究者理解这一过程。本文回顾了在语言理解和语言产生中的VWP眼动研究及相关任务,这些工作为在线事件理解提供了初步见解。研究表明:(1)事件理解与语言编码紧密协调,其交互发生得比以往认为的更早、更连续;(2)注视可能用于细化或消除初始处理过程中提取的关系信息——例如识别事件参与者或澄清其角色(如工具(Instrument)、目标(Goal)或接受者(Recipient))——在某些情况下,语言会引导注意力优先关注特定事件组件。更广泛地说,这一视角为未来VWP研究探索看、听和说之间动态关系奠定了基础。
研究人员使用了几项关键技术方法:首先是视觉世界范式(VWP),通过记录参与者在观看视觉场景并聆听或产生与事件相关的语句时的眼动数据,来实时监测认知处理过程;其次是短暂显示掩蔽范式,将事件场景呈现37-73毫秒后紧跟视觉掩蔽,测试快速事件信息提取能力;此外还采用外围呈现技术,将刺激呈现在视野外围,以检验额外视网膜信息提取的限度;角色搜索任务要求参与者从静态事件图像中识别特定角色(如施事者、受事者);跨语言比较研究则对比了不同语言使用者(如巴斯克语与西班牙语)在事件理解和描述中的差异。样本来源包括成人参与者及部分儿童群体。
2.1 关系感知的新视角
研究发现,视觉系统能够快速从静态事件快照中自动提取社会性和物理性关系。例如,Hafri等人(2013)的工作表明,观察者在短暂显示(37-73毫秒)后仍能准确选择事件类别(如“踢”或“轻拍”)并判断角色分配(如“谁在踢”)。这种能力基于粗略的姿势信息,破坏典型姿势会削弱该能力。值得注意的是,角色分配是自发的,甚至在没有有意义事件类别信息时也会发生,如当事件参与者被随机配对时仍会出现“角色转换成本”。这表明事件结构被快速自动提取,且角色信息具有抽象性,不依赖于特定事件知识。
2.2 额外视网膜关系信息:提取及其限度
尽管关系信息常可从单次注视中提取,但许多可用信息存在于中央凹外。场景感知研究表明,场景“要旨”(如类别)的快速提取可同时受中央凹、旁中央凹和外周处理支持,且这种要旨信息包括空间布局的结构信息乃至物体间的层次和功能关系(即“场景语法”)。研究显示,观察者能够报告短暂(<300毫秒)外周呈现的事件场景中的施事者和受事者角色分配及连贯性,但需要注视动作相关区域(如施事者手部)来识别许多动作。这些发现表明,外周处理可提供粗略姿势和生命性线索,从而实现角色识别乃至事件类别识别。关键的是,这里差异似乎在于信息的可用性而非处理的质性差异,因为模糊中央凹信息以模拟旁中央凹或外周可用的空间分辨率时会产生类似结果。
2.3 快速提取的关系信息的内容与格式
这些发现对感知场景表征的内容和格式具有更广泛意义。首先,此类表征的内容超出了事件“快照”中立即可见的内容,包括关于物体之上或之间已发生或可能发生之事的推断信息——即基于事件的物体历史。例如,在事件要旨提取研究中,事件的“关键时刻”(如施事者脚与受事者接触)足以推断类别“踢”。此类效应足够深入,以至于在存在最小连续性线索时会改变对动态事件的情景记忆。观察者甚至在记忆中“预演”状态变化事件(如融化中的冰),错误记忆物体比实际变化更大。物体历史也能在视觉处理中快速自发推断——例如,带有锯齿状嘴状凹陷的形状必定被咬过,或哪些物体先放置以产生稳定的积木塔。因此,感知和基于记忆的事件表征都包含超出共现场景的内容。
此外,快速提取的场景内容存在结构化表征——尤其是事件的高度抽象内容(包括施事者和受事者等通用角色)——表明其格式并非简单形象化或“图像式”(即表征部分与所表场景部分对应)。相反,这些表征的格式可能比以往认为的更类似语言——符号化和抽象化——或许类似于传统的“思维语言”概念。凭借这种共享格式,这些表征可能无缝对接语言和推理等更高级系统。特别是,感知表征可能容易转化为概念性表征,支持更高级推理(如关于谁对谁做了什么)和内部模型更新以应对展开的事件。这些概念表征(而非感知表征)可能是语言访问和更新的对象,并可能反过来对接或修改视觉世界的空间模型——更新实体位置及它们在场景中的关系。
3.1 语言理解研究
VWP中有充分证据表明,听觉识别动词、介词和其他关系术语会触发与事件意义相关的组合语言信息的快速检索。例如,听到动词短语开头(如“男孩在吃…”)会引发对语义上合理物体的预期性注视(如蛋糕);听到介词短语开头(如“把鸭子放进…”)会导致对可能作为介词语法对象的物体(如容器)的预期性注视。对于格标记语言的母语者,听到格标记名词会触发对可能参与动词所表示事件的实体的预期性注视。听到处所名词短语修饰语(如“把在/上面青蛙…”)会引导眼动至被视觉感知为参与指定空间关系的物体。最后,听觉动词识别影响下游解析和指代消解,改变句子处理过程中的眼动。
这些研究展示了关系信息的快速预期性激活,显示听者如何快速将语言输入与视觉显示提供的事件概念知识连接。扩展此项工作,其他VWP研究探索了理解者在口语展开过程中如何推断事件信息,基于当前状态或推断历史预期哪些物体可能参与事件。例如,Altmann和Kamide(2007)发现动词时态(“将喝”与“已喝”)调节对物体(如满杯与空杯)的注视。后期工作显示,当语言传达场景更新时(如瓶子已从地板移到桌子),听者可以修正预期。这些发现表明,事件描述的理解涉及关于物体状态和空间配置的动态推断,而非简单词语到视觉指称匹配,且此类预期性眼动可能源自内部生成的事件表征,甚至无需共现视觉场景。
3.1.1 操纵预览时间以理解视觉信息如何调节理解
预览时间效应为了解事件理解如何与语言交互指明了一条前进道路。第2.1节回顾的感知要旨提取工作表明,基本关系信息(如谁对谁行动)是快速自动可用的,即使几乎没有预览。此外,由于该过程是自动的,它应基本不受理解言语的额外认知需求影响,使其能够与语言处理同时发生。因此,在VWP中,持续的语言理解过程可能即使在少或无预览条件下也能访问基本事件要旨信息。
实证支持来自Zwitserlood等人(2018),他们发现短暂闪现(50-150毫秒)后掩蔽的动作场景促进后续动作命名,包括激活其相关词形。关键的是,他们还发现语言启动子产生类似促进。此类结果表明,仅短暂瞥见的事件场景提供足够详细的概念信息以促进场景理解和语言编码。类似地,初步VWP证据表明事件要旨可立即用于持续语言过程,来自J. Chen和Trueswell(2025)。当要求基于口语输入从两个描绘事件中选择时,观察者在动词偏移(“红衣人在踢…”)时对目标事件图像的注视高于几率水平,即使没有视觉预览(即描绘事件直到动词本身 onset 才显示)。鉴于这些发现,最小预览可用的事件要旨信息可能影响实时语言处理,例如帮助解决句法歧义。
3.2 语言产生研究
语言产生研究(使用VWP及其他方法)更关注事件理解与语言编码之间的关系。即使最早的VWP产生研究(Griffin和Bock,2000)也处理了这些过程的时间关系和潜在时间重叠问题。在一系列实验中,记录参与者在观看双参与者动作线条图(如邮递员追狗)并执行若干不同任务时的眼动。在要求识别场景中受事者的“受事者搜索”任务中,眼动在300毫秒后于施事者和受事者之间分化,表明对事件关系结构的快速理解。场景描述任务中的模式证实了这些发现:虽然最初300毫秒内的眼动不预测说话者选择主语,但言语开始前约一秒发生的注视却可以。总之,这些发现使Griffin和Bock认为语言产生中的事件描述展开分为两个阶段:整体事件理解的初始阶段(类似于快速要旨提取),随后是第二阶段,剩余注视专门用于规划话语。
然而,后续工作表明这种理解与语言规划的时间分离可能过于严格。在类似Griffin和Bock的研究中,Gleitman等人(2007)发现,与两阶段模型相反,场景上字符的初始注视位置部分预测了参与者描述中后来的提及顺序,表明感知和语言过程可能以级联方式交互。例如,首先注视“狗追人”图像中男人的参与者更可能产生(不受偏好的)描述“男人在逃离狗”,而那些首先看狗的人则不然。尽管某些效应随任务顺序变化,但总体这些发现表明,初始注视位置不仅影响事件理解,而且直接促进该字符的语言编码,导致在级联序列中更早提及。
3.2.1 编码复杂事件结构中的序列注意
事件理解也并非总是在初始要旨提取阶段完全完成,尤其是对于更复杂或模糊的事件。证明事件信息快速自动提取的研究主要关注简单且相对明确的施事者-受事者或对称社会互动,如第2.2节讨论的那些。相反,对于更复杂或模糊的事件,注视——由初始要旨引导——可能需要细化和更新事件表征。这种细化可能不仅需要确定参与者身份(如第2.2节讨论),还需要解析事件结构本身。支持这种阶段性细化的证据,虽然仍在浮现,但得到几个研究线的支持。例如,Yin等人(2022)发现物体转移事件(如“给”和“拿”)在工作记忆中编码存在不对称性。参与者更难检测到被拿者失去物体的参与者的变化,而非从给者那里接收它的参与者,揭示了给和拿等事件表征中的偏差。类似地,运动事件研究表明,目标(Goal)比源(Source)编码保真度更高,尤其是在涉及有生命图形(Figure)的事件中。此外,编码某些空间关系(如一物体在另一物体之上或左侧)似乎需要从图形到背景物体序列注意转移的视觉例程的刻意启动。
最近一项涉及理解过程中眼动的角色识别研究进一步支持了某些复杂事件类型角色需要更费力(或 simply 更长时间)场景分析来提取的观点。ünal等人(2024)受Griffin和Bock(2000)的受事者搜索任务启发,考察了静态致动事件图像中角色识别的时间进程,不同参与者执行施事者、受事者、目标和工具搜索。眼动数据显示每种角色类型的快速提取,但存在系统延迟,符合主题层次(Thematic Hierarchy),其中角色突出性不同:施事者最先,其次是受事者、目标,最后是工具。这种时间顺序即使在统计控制大小和中央凹距离等因素后仍保持。有趣的是,角色识别通常似乎依赖于首先显式注意其他事件参与者。例如,搜索受事者(总是无生命)的参与者显示出注意施事者的证据;搜索(无生命)目标的参与者同时注意施事者和受事者;搜索工具的参与者注意施事者和受事者而非目标。虽然有待测试替代解释(包括生命性差异在多大程度上导致某些角色推断),这些发现表明,形成包含某些事件组件(如目标)的完整事件表征需要针对性地显式注意其他更突出组件(如施事者和受事者)。
3.2.2 语言对视觉事件理解的任务依赖性效应
除了这些感知发现,越来越多证据表明语言本身在某些情境下可以调节事件如何被视觉理解——一种“为说而看(Looking-for-Speaking)”的形式。Isasi-Isasmendi等人(2023)比较了巴斯克语和西班牙语使用者,这两个人群在其语言如何标记施事者方面不同:巴斯克语显式格标记施事者角色(作格),而西班牙语通常不。在场景描述任务中,巴斯克语使用者比西班牙语使用者更频繁注视施事者——这种差异甚至在非语言探测记忆任务中持续。尽管某些效应随任务顺序变化,但总体这些发现表明,特定语言编码的长期经验可以塑造某些语言和非语言任务中的显式视觉注意。相关地,Sauppe和Flecken(2021)证明,参与者被指示用于描述事件的句子结构(如主动与被动语态)改变了他们在观看单独、短暂显示的外周图像时对施事者和受事者的初始注视。这些结果扩展了经典“为说而思(Thinking-for-Speaking)”观点,显示甚至语言规划的抽象特征(如哪个角色将被先提及)可以偏向事件理解过程中显式注意的分配。
其他研究得出类似结论但表明此类效应可能依赖于任务需求。例如,比较英语和希腊语使用者的跨语言工作显示了运动事件编码方式的差异——英语倾向于词汇化运动方式(如“skip, run”),而希腊语更常编码路径(如“ascend, exit”)——当记忆需求高或需要显式言语化时,眼动存在相应差异。总之,这些发现表明,虽然语言经验可以偏向事件解释和注意,早期事件理解中的持久差异似乎有限,最稳健的效应出现在语言主动参与或非语言任务特别要求高时。
本文提供了对视觉世界范式(VWP)中眼动在事件理解和语言处理中作用的细致考察。跨研究(非VWP和VWP),一个核心发现是关系信息(如谁对谁做了什么)通常被快速、自发、有时甚至外周地提取。此证据证明了视觉系统生成关系内容的结构化(或许符号化)表征的能力,这些表征易于被更高级认知过程(包括语言)访问。此外,这些表征的内容通常包括关于已发生或即将发生之事的推断信息(例如,短暂观察到的踢事件将完全执行;或融化过程中的冰块将继续融化)。
同时,事件理解并非总是一瞥或从额外视网膜输入即完成。虽然粗略关系结构可以快速建立(例如,关系角色如施事者或受事者绑定到特定空间位置的实体),但细节如个体事件参与者的精确身份、细粒度角色分配或视角依赖解释(如“追逐”与“逃跑”)可能需要额外注视。早期事件理解这些开放式的方面可能创造机会,让语言——以及事件编码中的跨语言差异——引导注意并影响事件如何被解释,尤其是在语言理解情境下。
产生研究进一步揭示事件理解和语言编码以级联、整合方式展开,而非严格分离阶段。即使早期注视也似乎直接影响语言规划,包括图形-背景分配和提及顺序(如“狗追人”与“人逃离狗”),而后期注视细化最初建立的角色分配,尤其是对于涉及较不突出角色(如工具、目标或接受者)的事件。此外,语言本身有时可以偏向事件如何被视觉检查,尤其是当观察者从事要求高的任务且语言可用作编码记忆中观察事件的工具时。
总之,这些发现展示了VWP如何实时跟踪视觉事件结构被提取并选择性细化以满足理解和产生需求。眼动为了解关系信息如何支持和约束语言解释及话语 formulation 提供了直接窗口,并提供了一种探测语言如何引导注意的方法,因为视觉事件表征正在被构建。预览时间操纵,尤其是与跨语言设计结合时,为识别语言驱动影响是否及何时出现提供了一条有前途的道路,并为解决关于感知和语言如何共同塑造事件理解的更广泛问题提供了途径。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号