语言产生系统如何追踪词汇共现：来自短语命名实验的认知机制证据

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月24日 来源：Cognition 2.8

编辑推荐：

　　本研究通过系列图片命名实验，发现语言产生系统会实时追踪并利用词汇共现概率信息。研究人员通过操纵形容词-名词短语的重复暴露模式，证实重复产生的短语比仅重复单个词汇的组合命名速度更快（40 ms优势），且该效应可持续24小时。这项发表于《Cognition》的研究挑战了主流心理语言学模型的假设，为"连接性词汇表征"模型提供了直接证据，对理解语言产生中的统计学习机制具有重要意义。

人类语言系统能够产生近乎无限的词汇组合，但说话者往往更频繁地使用某些特定词汇组合。直觉上，语言产生系统应该会记录这些组合概率并利用它们来简化后续的语言产生过程。然而，主流心理语言学模型基于生成主义框架，认为语言系统由抽象词汇表征和规则组成，并不追踪词汇共现信息。这种假设与人类广泛存在的统计学习能力形成鲜明对比，也与直觉相悖——不记录共现信息的系统可能更容易出错且效率低下。

为检验这一基本假设，德国波茨坦大学的研究团队在《Cognition》杂志上发表了一项创新性研究。他们通过三个精巧的实验，首次提供了语言产生系统实时追踪词汇共现的直接实验证据。

研究人员采用图片命名范式，要求德语母语者使用形容词-名词短语（如"白色的马"）描述图片。实验核心设计在于训练阶段的操作：一半测试短语在训练中始终保持相同组合（相同短语条件），另一半则保持名词和形容词出现次数相同但以不同组合出现（不同短语条件）。这种设计使得研究人员能够区分纯粹词汇重复效应和特定短语组合的重复效应。

关键技术方法包括：①采用PCIbex在线实验平台实施图片命名任务；②使用MultiPic和CRL国际图片命名项目的标准化图片刺激；③基于deWaC语料库的词汇共现频率控制；④通过广义加性混合模型(GAMM)分析命名延迟的动态变化；⑤设计语义分类任务作为控制条件排除视觉熟悉度的影响。

实验结果表明：

1.
训练后命名延迟降低：重复产生的短语比仅重复词汇的组合表现出约40毫秒的额外优势，表明系统确实记录了特定词汇组合的共现信息。
2.
效应持久性：该效应在24小时无额外暴露后仍然存在，虽然有所减弱，表明这种学习具有相对稳定性。
3.
频率梯度效应：探索性分析显示，前几次重复带来的增益最大，随后逐渐趋于平稳，表明学习过程存在非线性特征。
4.
排除视觉解释：当参与者仅进行语义分类而不产生短语时，效应消失，证实该现象特定于语言产生过程。

研究结论挑战了传统心理语言学模型的基本假设。Levelt(1999)等经典模型认为语言产生系统由抽象词汇表征和组合规则构成，每次产生语句都是重新应用规则的过程，不保留之前的组合信息。本研究结果表明，系统实际上会通过类似赫布学习("一起激发的神经元连在一起")的机制，在频繁共现的词汇表征之间建立强化连接。

这种"连接性词汇表征"模型能够解释为何高频短语产生更快：共现频率越高，词汇间的连接强度越大，激活传播效率越高。研究还发现语料库短语频率效应与实验操纵的暴露效应存在交互作用，表明系统既受长期语言经验影响，也会被即时实验暴露所调整。

该研究的意义远超实验发现本身：首先，它架起了心理语言学模型与基于使用的语言学习方法之间的桥梁，表明语言系统具有持续适应性和可塑性；其次，它为统计学习理论提供了成人语言产生层面的证据，扩展了该理论的应用范围；最后，研究方法学上的创新为后续研究提供了范式参考，使得实时追踪语言系统变化成为可能。

未来研究需要进一步探索这些连接的具体性质：是存在于词元(lemma)层还是词位(lexeme)层？是否受产生与感知的共同影响？如何与分布语义学模型相整合？这些问题的解答将推动我们对语言产生机制的根本理解。

总之，这项研究首次通过实验证明语言产生系统会实时追踪并利用词汇共现信息，为心理语言学模型提供了重要修正，也为理解人类语言的统计学习本质提供了新的视角。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号