
-
生物通官微
陪你抓住生命科技
跳动的脉搏
视觉语法诱导模型中的联合推理:重新定义语言习得的语义与句法引导机制
【字体: 大 中 小 】 时间:2025年07月29日 来源:Journal of Memory and Language 2.9
编辑推荐:
本研究通过神经视觉语法诱导模型,探讨儿童语言习得中语义引导(semantic bootstrapping)和句法引导(syntactic bootstrapping)的协同机制。研究发现,当语法和语义通过联合学习(joint learning)同步获取时,两种引导效应最强,证实语言习得的核心策略是跨模态的联合推理。该成果为认知科学和AI领域的语言建模提供了新方向。
语言是人类独有的复杂认知能力,但儿童如何在有限输入条件下高效掌握语言规则,一直是认知科学的核心谜题。传统理论如语义引导(semantic bootstrapping)认为儿童利用概念知识推断语法范畴,而句法引导(syntactic bootstrapping)则主张句法结构帮助理解新词义。这两种看似对立的理论长期主导着语言习得研究,但二者关系及其底层机制始终未明。
随着大语言模型(LLMs)的兴起,研究者发现无限制数据下语言结构可被有效学习,但这与人类有限的学习条件形成鲜明对比。这促使学界重新审视语言习得理论——是否存在更本质的学习策略能统一解释各类引导现象?
研究人员通过系列神经视觉语法诱导模型(visually-grounded grammar induction models)发现,当语法和语义通过联合学习(joint learning)同步获取时,两种引导效应达到最强。这种策略通过相互约束假设空间,使语法诱导更准确、词汇范畴学习更符合实际,并能更好地解释新句子和动词含义。研究采用抽象场景数据集(Abstract Scenes dataset)的6万组图像-句子对,构建联合学习模型整合语法诱导(C-PCFG)和语义嵌入学习。关键技术包括:基于SimCLR的自监督视觉编码、变分贝叶斯推理的语法学习、以及双向LSTM的语义角色建模。
研究结果显示:在语法结构评估中,联合学习模型的Span F1得分达0.90,显著高于仅使用语义(0.75)或句法(0.42)的单模态模型。词汇范畴分析显示,联合学习诱导的60个预终结符中,89%能准确映射到传统语法范畴。在新动词理解测试中,联合模型对及物/不及物结构的区分准确率达72%,而语义角色识别任务中表现优于基线35%。
特别值得注意的是,当模型在训练中途切换为联合目标时(语义优先或句法优先的消融实验),性能出现显著跃升。这证实语言习得不是分阶段的算法过程,而是多层次表征的持续互动。正如神经科学发现的语言网络分布式特性,该研究从计算角度证明:语义和句法的神经表征本质上是交织的。
这项研究突破了传统二分法的理论框架,提出语言习得本质是跨模态的联合推理过程。其意义不仅在于统一解释两类引导现象,更开创性地指出:语言学习的核心机制在于多层次表征的相互约束。这种联合学习视角为理解人类语言的高效习得提供了新范式,也为发展更接近人类学习策略的AI模型指明方向。未来研究应进一步探索语音、形态等其他语言层次如何参与这种联合推理,这将为揭示语言习得的完整图景提供关键线索。
生物通微信公众号
知名企业招聘