将贝叶斯先验知识提炼到人工神经网络中以模拟快速语言学习

【字体: 时间:2025年05月21日 来源:Nature Communications 14.7

编辑推荐:

  人类可通过极少经验学习语言,现有模型难兼顾快速泛化与自然数据处理。研究者融合贝叶斯模型与神经网络,开发 “归纳偏置提炼” 技术,使模型既能从有限数据学习形式语言模式,又能处理自然语句语法,为解释人类学习机制提供新框架。

  
语言学习的奥秘:从贝叶斯到神经网络的跨界之旅

人类在语言学习中展现的 “少样本高效学习” 能力堪称认知科学的经典谜题。无论是幼儿通过有限语句掌握语法规则,还是成人快速理解新词含义,其背后都涉及复杂的归纳推理过程。然而,传统计算模型在模拟这一能力时面临两难困境:贝叶斯模型虽能通过强归纳偏置(inductive bias)实现快速泛化,却难以处理自然语言的复杂性;神经网络虽擅长解析大规模自然数据,却因归纳偏置薄弱而在少样本场景下表现不佳。如何调和这两种模型的优势,成为破解 “刺激贫乏论(poverty of the stimulus)” 等核心问题的关键。

为突破这一瓶颈,美国耶鲁大学(Yale University)与普林斯顿大学(Princeton University)的研究团队开展了一项开创性研究,相关成果发表于《Nature Communications》。研究者提出 “归纳偏置提炼(inductive bias distillation)” 框架,通过元学习(meta-learning)技术将贝叶斯模型的归纳偏置迁移至神经网络,构建出兼具快速学习能力与自然数据处理灵活性的 “先验训练神经网络(prior-trained neural network)”。

关键技术方法


  1. 贝叶斯模型定义目标偏置:基于形式语言(如正则表达式定义的字符串集合)构建概率模型,通过组合 “连接(concat)”“递归(plus)”“同步(synchrony)” 等原语,生成语言分布以刻画目标归纳偏置。
  2. 元学习与数据采样:利用模型无关元学习(MAML)算法,从贝叶斯模型采样的语言任务中训练长短期记忆网络(LSTM),使神经网络通过元学习获取贝叶斯先验知识。
  3. 双场景验证:在形式语言(人工规则语言)与自然语言(860 万词的 CHILDES 儿童语言语料库)中分别测试模型的少样本学习能力与复杂数据处理能力。

研究结果


1. 形式语言的少样本学习


在 56 种形式语言测试中,先验训练神经网络仅需 10-1000 个样本即可达到与 Yang & Piantadosi 贝叶斯模型相近的 F 分数(衡量预测字符串与真实语言的匹配度),而标准神经网络需约 10 倍样本量。例如,在递归结构(如 (AB)+ 模式)学习中,先验训练网络通过提炼贝叶斯模型的 “递归原语” 偏置,在深度递归语句(如多层嵌套介词短语)中表现出更高准确性,证明归纳偏置迁移的有效性。

2. 自然语言的复杂模式解析


在 CHILDES 语料库的 next-word 预测任务中,先验训练网络的困惑度(perplexity,越低表示预测越准确)为 19.66,优于标准神经网络(19.75)及传统 5-gram 模型(24.4)。进一步分析显示,其在 “递归”“启动效应(priming)” 等语言学现象上表现更优:在包含递归结构的最小对(minimal pairs)测试中,先验训练网络对深层递归语句的准确率比标准网络高 5%-10%;在启动效应实验中,其对重复语句的预测困惑度降幅更大,表明模型更擅长捕捉语言中的结构依赖性。

3. 偏置可解释性与泛化性


通过消融实验(ablation study)发现,移除 “递归原语” 会导致模型在形式语言递归任务中性能显著下降,而移除 “同步原语” 则影响自然语言中的长距离依赖处理。这表明提炼的归纳偏置具有明确的语义对应性,且在跨领域(形式语言→自然语言)泛化中表现出一定适应性,尽管在分布外场景(如非训练模式的句法规则)中效果趋于模糊。

结论与意义


本研究通过 “归纳偏置提炼” 成功弥合贝叶斯模型与神经网络的鸿沟,证明连续向量表示的神经网络可编码离散符号系统的归纳偏置。这一成果不仅为解释人类语言学习的 “数据效率” 与 “结构敏感性” 提供了计算模型,也为开发兼具推理能力与学习效率的人工智能系统开辟了新路径。未来,该框架有望拓展至认知科学其他领域(如概念学习、物理推理),并推动 “神经符号计算” 的融合发展。研究揭示,人类认知的奥秘或许就藏在归纳偏置与表征灵活性的动态平衡之中 —— 这正是连接主义与符号主义在计算层面的美妙和解。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号