词汇与构式概率如何解释长距离依存结构的可接受性

【字体: 时间:2025年07月26日 来源:Cognition 2.8

编辑推荐:

  研究人员针对长距离依存结构可接受性的影响因素展开研究,通过概率模型验证了动词框架概率(P(verb, that))及其分解因素(动词概率P(verb)和条件概率P(that | verb))的关键作用。实验复现和扩展研究表明,句子可接受性与词汇及构式的整体概率显著相关,为句法理论争议提供了基于语料库的量化证据,支持构式语法(Construction Grammar)的认知解释。

  

语言科学中一个长期悬而未解的谜题是:为什么某些跨越句子补语动词的长距离依存结构(如“What did Mary murmur that Bill kicked?”)听起来别扭,而另一些(如“What did Mary say that Bill kicked?”)却显得自然?传统句法理论试图通过复杂的空语类(empty categories)或“句法岛屿”假说来解释,但这些假设缺乏独立证据支持。近年来,认知语言学提出概率模型可能才是关键——人们更接受那些由高频词汇和常见构式组成的句子。

为验证这一假说,麻省理工学院(Massachusetts Institute of Technology, MIT)的研究团队在《Cognition》发表论文,通过语料库分析和行为实验双重验证。他们首先从美国当代英语语料库(COCA)中提取动词概率P(verb)、动词带补语连词that的条件概率P(that | verb),以及二者乘积的动词框架概率P(verb, that)。随后复现Liu et al. (2022)的实验设计,让受试者对48组含不同动词的疑问句和陈述句进行可接受性评分,并新增形容词框架(如“What was Mary glad that Bill bought?”)的扩展研究。

关键技术方法

  1. 语料库概率计算:基于COCA的依存句法分析,量化动词频率、补语构式选择偏好;
  2. 实验设计:采用7级李克特量表评估含不同动词/形容词的疑问句与陈述句可接受性;
  3. 统计建模:使用线性混合效应模型分析概率指标与评分的关联,控制词频、句法复杂度等混淆因素。

主要研究结果

  1. 动词框架概率的分解效应

    • 动词本身概率P(verb)和其带补语概率P(that | verb)均独立预测可接受性,但二者交互作用不显著,表明动词框架概率P(verb, that)的效应可完全由这两个简单因素解释。例如高频动词“say”带补语的概率也高,因此“say that”构式整体可接受性高。
  2. 形容词框架的平行验证

    • 在形容词实验中(如“glad that”),同样发现形容词概率P(adjective)和P(that | adjective)共同决定可接受性,证实概率效应的普适性。
  3. 构式类型的主效应

    • 所有实验中,疑问句评分显著低于陈述句,符合“陈述句更常见”的语用预期。

结论与意义
这项研究通过概率视角统一解释了句法理论长期争论的“岛屿效应”:句子的可接受性并非由抽象句法规则决定,而是取决于其组成成分的累积概率。这一发现为构式语法(Construction Grammar)提供了实证支持,表明语言处理本质上是基于经验的概率计算过程。方法论上,研究创新性地将语料库概率分解为可解释的认知变量,为后续研究提供了可复用的分析框架。实际应用中,该模型可优化自然语言处理系统对“非标准”句子的生成与评估策略。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号