言语产生中的增量式规划策略:场景描述揭示语言产出中有意义的聚类现象

【字体: 时间:2025年09月24日 来源:Cognition 2.8

编辑推荐:

  本研究探讨了言语产生中复杂思想的线性化问题。研究人员通过场景描述任务,发现说话者采用增量式规划策略,将场景中的对象按物理距离和语义相似性聚类,并在聚类间转换时出现更长的停顿和填充词,表明聚类边界是规划发生的节点。该研究为理解多话语产出的认知机制提供了新视角,对语言产生和认知控制领域具有重要意义。

  

当我们描述一个复杂场景时,大脑是如何组织这些信息的?这是一个关于语言产生的核心问题。言语产生是一个复杂的认知过程,涉及从思想形成到运动协调的多个步骤。在这个过程中,线性化(linearization)——即对思想进行排序以便它们能够以合理的顺序产生——是一个核心问题。如果我们要谈论多个对象,就需要决定哪个对象先被提及,哪个后提及。Levelt在其1981年的著作中首次讨论了这个问题,并在1989年的《Speaking》一书中进行了扩展。

线性化发生在产生过程的多个层次,从概念形成到发音。Levelt提出了宏计划(macroplanning)和微计划(microplanning)两个阶段,前者涉及选择交际目标和子目标,后者涉及选择前语言信息的结构。以往关于线性化的研究多集中在微计划阶段,分析短语和单句中词汇的排序。然而,在多话语产出中,有许多相互关联的思想需要传达,存在许多组织方式的选择。在这种情况下,规划可能扮演更重要的角色。

关于言语产生有两种主要理论观点。一种是完全预先规划的观点,即说话者在开始说话前就决定了整个要说的内容序列。这种策略的优势是消除了在产生过程中进行规划的需要,理论上可以实现流畅的产出。然而,这种方法也会带来巨大的认知负荷和工作记忆需求,并延迟产生的开始时间。另一种是激进增量观点,认为规划和说话紧密交替进行:在产生一个单元的同时,规划下一个单元。这允许更早地开始说话,但可能需要大量的即时信息制定和重新制定,可能减缓或破坏流畅性。

本研究采用了一种不同于激进增量观点的视角,将规划期与发音期结合起来。研究人员假设多话语产出涉及通过聚类进行的增量规划。在这种观点下,说话者通过将部分信息聚类成更易管理的块来交错进行规划和发音。通过使用聚类在处理事件流中创建中断,说话者可以充分利用规划和增量性的优势。

为了验证这一假设,研究人员进行了一项预先注册的研究,让30名参与者描述30个室内和室外场景,同时记录他们的言语。研究人员计算了物体间的物理距离(通过识别每个物体的质心点并计算每对质心点之间的欧几里得距离)和语义距离(使用ConceptNet Numberbatch获取物体标签间的语义相似性)。然后应用聚类算法确定每个场景的适当聚类数量并将物体分配到每个聚类中。

研究发现,与假设一致,物理距离较短和语义更相似的物体在言语描述中的时间邻近性更高。此外,涉及从一个聚类跳到另一个聚类的词汇产出比同一聚类内的产出需要更长的启动时间。这表明说话者通过建立物体聚类并利用它们来促进增量规划来解决线性化问题。这种方法将多话语语言产出视为一种觅食行为,人们在探索和利用之间保持平衡。

研究采用了多种技术方法:使用AnyLabeling和Segment Anything Model进行场景分割和物体标注;通过ConceptNet Numberbatch计算语义相似性;应用k-medoid聚类算法进行物体聚类;使用Whisper算法进行语音转录和Penn Phonetics Forced Aligner进行时间对齐;采用线性混合效应模型进行统计分析。

研究结果显示,物体间的物理和语义距离能够预测它们在言语描述中的时间距离。物理距离(β = 0.06, t = 25.80, p < 0.001)和语义距离(β = 0.18, t = 86.57, p < 0.001)都对时间距离有显著主效应,且存在显著的交互作用(β = 0.07, t = 53.47, p < 0.001)。这表明对于语义相似的物体,无论物理距离如何,它们都可能在时间上接近地被提及;而对于语义不相关的物体,只有当它们在空间上接近时,才更可能很快地被相继提及。

在聚类跳跃分析中,研究发现从一个聚类跳到另一个聚类相比停留在同一聚类内需要显著更长的时间。这在所有特征上都成立:物理相似性(β = 0.13, t = 20.72, p < 0.001)、语义相似性(β = 0.10, t = 15.24, p < 0.001)、中心接近度(β = 0.07, t = 12.15, p < 0.001)和物体大小(β = 0.05, t = 7.40, p < 0.001)。探索性分析还发现,在聚类边界处,暂停时间和填充词(如"uh"、"um")的使用更加明显,这表明这些时间被用于规划下一个话语序列。

研究的讨论部分指出,场景描述展示了物体聚类的证据,并支持聚类通过允许在聚类间交错进行规划来促进战略性增量产生的观点。聚类规划相比物体级规划减少了说话者需要做出的选择数量,使他们能够在仅制定初步计划后就开始说话。在聚类内,增量性可以发挥作用。虽然规划和增量性不仅限于聚类之间和聚类内部,但在聚类边界处,规划和增量性的相对比重发生了转变。

这种通过聚类进行的增量规划策略在减少多话语产出期间工作记忆负担方面特别有益。物理和语义聚类特别有用,因为它们不需要保存在工作记忆中。参与者面前有场景,他们可以简单地依赖图像中的可见属性,如物理距离,而不是记住随机顺序。语义聚类也有帮助,因为它依赖于长期知识。通过使用包含熟悉场景和物体的自然图像,参与者很可能能够利用他们丰富的联想网络来帮助聚类场景中的物体。

该研究将语言产生视为一种决策任务,说话者不断决定话语的内容和形式。在这个场景描述任务中,参与者需要找到要描述的物体,因此这种语言产生任务也可以被视为一个觅食问题。就像动物在斑块环境中尽可能多地获取食物一样,在描述过程中,人们需要决定是继续谈论场景的特定区域还是转移到新区域。觅食可以由外部驱动,如基于图像中物理距离从一个物体移动到下一个物体;也可以由内部驱动,如选择描述与最后提到的物体语义相关的物体。

利用的优势在于最小化努力和减少到达下一个目标的时间。最省力的策略似乎是不断选择物理或语义上接近的项目。然而,在同一聚类中停留过久或"过度收获"可能不适合给定语境。利用的缺点包括增加努力和给定聚类的收益递减。一般来说,停留在同一区域会导致描述过于具体,而无法描述场景的其余部分。参与者倾向于跳转聚类尽管增加了努力,这暗示了他们在任务中的目标。描述的指导原则可能是利用和探索之间的平衡,这是由物体聚类实现的。这种平衡是觅食行为的一个特征。

总之,场景描述显示了物体聚类的证据,并支持聚类有助于在多话语产出期间进行战略性增量规划的观点。这种聚类反过来促进了说话者采用探索-利用平衡策略来完成他们的语言任务。总体而言,研究结果支持一种将复杂描述生成视为一种觅食任务的语言产生观点,其中利用期与探索期交替出现。

这项研究对理解语言产生的认知机制具有重要意义,特别是在多话语产出方面。它揭示了说话者如何通过聚类策略来管理复杂的线性化问题,平衡规划和增量性,从而更有效地组织言语产出。研究结果不仅对语言产生理论有贡献,也对认知控制、工作记忆和决策制定等相关领域提供了新的见解。该研究发表在《Cognition》杂志上,为未来研究多话语产出的认知机制奠定了基础。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号