
-
生物通官微
陪你抓住生命科技
跳动的脉搏
儿童语言习得中长距离句法依赖的建模与解析机制研究
【字体: 大 中 小 】 时间:2025年06月11日 来源:Cognition 2.8
编辑推荐:
本研究针对儿童如何习得复杂句法结构(如宾语wh-疑问句中的长距离依赖LRDs)这一核心问题,开发了基于组合范畴语法(CCG)的概率计算模型。通过真实儿童导向语料(CHILDES)训练,模型同步学习词汇语义与句法规则,首次实现对新语句的完整解析树生成及语义推断,准确率显著优于前人工作(如Abend et al., 2017),为理解人类语言习得机制提供了计算框架。
语言是人类独有的复杂认知能力,而儿童如何在有限的语言输入下快速掌握诸如"你想吃什么i
?"这类包含长距离依赖(LRDs)的句法结构,一直是语言学与认知科学的核心谜题。传统研究分为两派:以乔姆斯基为代表的普遍语法(UG)理论认为人类先天具备语言模块,而使用基础理论(Usage-based)则强调通过范例记忆逐步归纳。随着大型语言模型(LLMs)的兴起,其海量数据需求与人类学习效率的悬殊差距,更凸显了构建符合儿童真实学习过程的计算模型的必要性。
爱丁堡大学的研究团队在《Cognition》发表的研究中,创新性地将组合范畴语法(CCG)与增量式期望最大化算法结合,构建了首个能同步学习词汇语义和句法规则的概率模型。该模型以布朗语料库中2-4岁儿童的真实输入(仅9314词)为训练数据,通过语义标注的逻辑形式(lf)引导学习,成功解析了包括宾语wh-疑问句在内的8类复杂结构,其长距离依赖解析准确率超越前人工作40%以上。
关键技术包含:1) 基于2-多重上下文无关文法(2-MCFG)的CCG解析框架处理跨从句依赖;2) 单次增量学习模拟儿童实时输入处理;3) 语义启动理论引导的词汇-句法联合概率建模。研究采用亚当语料库(Brown, 1973)的5320条真实儿童导向话语(CDU),每条配对人工标注的逻辑形式作为监督信号。
理论基础
研究以CCG为理论核心,其强词汇化特性将语言特异性信息编码于动词等词项的范畴中,通过功能应用(functional application)等先天组合规则实现句法-语义接口。这种设计既避免了UG理论对复杂约束条件的需求,又超越了单纯范例记忆的局限性。
概率模型
通过潜在变量T(解析树)联结字符串w与语义m的三元概率分布P(w,m,T),采用Neal & Hinton (1999)的增量EM算法更新参数。关键创新在于允许高频CDU整体 lexicalization(词汇化存储),同时通过分布模式自动分解复合结构。
数据
使用CHILDES中亚当语料库的北美英语数据,覆盖儿童2岁3个月至3岁11个月的语言暴露期。尽管数据量仅为儿童同期接触语言的2%,但模型仍展现出强大的泛化能力。
长距离依赖
模型对"whati
do you wanti
?"类结构的解析准确率达78.3%,且能处理嵌套提取(如"whati
do you think you wanti
?")。研究发现早期高频wh问句(如"what are you doing?")的快速掌握促进了后续复杂LRDs的学习。
结论与意义
该研究首次证明:1) 儿童级数据量下可实现复杂句法的稳健学习;2) CCG的2-MCFG表达能力足以处理跨从句依赖;3) 语义-句法联合概率框架比纯句法或纯统计方法更接近人类学习效率。相较于Abend et al. (2017)的模型,新系统在未见语句的完整解析树生成和语义推断准确率分别提升35%和42%,且避免了单纯词汇记忆的缺陷。这些发现为语言习得理论提供了计算实证,对发展更接近人类学习机制的NLP模型具有重要启示。
研究同时指出,当前模型尚未纳入社会语用线索等关键因素,未来需结合感知-运动技能学习框架(Chater & Christiansen, 2018)进行扩展。该成果为理解语言习得的"先天-后天"交互机制建立了可计算的研究范式。
生物通微信公众号
知名企业招聘