
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大语言模型如何模拟人类逻辑规则归纳:从认知计算理论到神经网络的突破性探索
【字体: 大 中 小 】 时间:2025年09月23日 来源:Journal of Memory and Language 3
编辑推荐:
本研究探讨了大型语言模型(LLM)在逻辑规则学习任务中是否能够作为人类认知的合理解释模型。通过四项实验,研究人员发现LLM在归纳逻辑结构化规则方面不仅达到了与人类相当的行为拟合度(R2高达0.848),甚至超越了传统的贝叶斯概率思维语言(pLoT)模型。这一发现表明,LLM可能提供了一种新的理论框架,用于解释人类逻辑概念的原始表征和计算机制,为认知科学提供了新的建模路径。
在认知科学的长河中,一个核心问题始终困扰着研究者:人类如何从零散的感官信息中归纳出逻辑结构化的规则?更具体地说,什么是认知的基本表征单元?这些单元通过什么规则组合?它们又从何而来?数十年来,人工神经网络(ANN)是否能够充分模拟这种高阶认知功能——尤其是语言和逻辑领域的抽象认知——一直存在激烈争论。传统观点认为,神经网络缺乏对符号计算关键特性(如内容独立性、组合性和变量绑定)的先天表征支持,因此难以胜任逻辑推理的建模工作。
然而,近年来大语言模型(LLM)的崛起正在悄然改变这场争论的格局。这些模型基于Transformer架构,通过预测句子中的下一个词这种通用目标进行训练,并不预设任何逻辑推理的专门偏置。令人惊讶的是,它们表现出来的推理能力却引发了新的思考:LLM是否能够不依赖预先设计的逻辑原语或计算原则,就能实现类人的逻辑推理能力?如果可以,它们是否仅仅是在实施现有的符号认知模型,还是提供了一种全新的认知理论?
为了回答这些问题,来自布朗大学计算机科学系的Alyssa Loo、Ellie Pavlick和Roman Feiman在《Journal of Memory and Language》上发表了一项开创性研究。他们采用了一个经典的逻辑规则学习范式——该范式自Bruner等人1956年的工作以来被广泛用于人类认知研究——来测试各种LLM的表现。研究人员将视觉对象转化为文本描述(例如“中等蓝色矩形”),让模型通过观察标注示例来推断一个虚构形容词(如“wudsy”)的分类规则,进而对新的对象集进行分类。实验涵盖了112条规则,包括仅需命题逻辑(Propositional Logic)表达的规则和需要一阶逻辑(First-Order Logic, FOL)的规则。
研究团队运用了多种关键技术方法,主要包括:1)使用人类行为实验数据(来自Piantadosi等人2016年的研究)作为基准;2)对多种LLM(如GPT-4、GPT-3.5、Llama2系列、Gemma等)进行系统测试;3)采用规则诱发提示让模型自我报告其推断规则;4)通过微调(fine-tuning)技术使用人类响应数据校准模型概率输出;5)利用定量指标如准确率、最后四分之一准确率、似然度、匹配率和一致性来评估模型表现;6)使用R2(决定系数)分析模型与人类学习轨迹的相关性。
研究结果
实验1:模型的任务表现
测试发现,Gemma(7B)、GPT-4和Mixtral等模型在命题逻辑规则上的表现与人类相当甚至更好(准确率>0.9),而在FOL规则上虽略逊但仍接近人类水平。这表明LLM在预训练状态下已具备较强的规则归纳能力。
实验2:规则诱发
GPT-4能够以高一致性(96.3%)自我报告其使用的规则,但这些规则往往比贝叶斯模型的MAP规则更冗长。虽然仅44.1%的诱发规则与真实规则真值等价,但模型在命题规则上表现良好,在FOL规则中则倾向于使用命题算子的复杂组合而非量词。
实验3:与人类学习轨迹的相关性
通过微调Gemma(7B)以拟合人类响应,模型在未见过的对象列表上达到了与人类极高的R2(0.848),显著优于贝叶斯pLoT模型。这表明LLM不仅能正确学习规则,还能以类人的方式犯错和学习。
实验4:调优的泛化能力
即使在对部分规则(20条)保持未见的情况下进行调优,LLM仍能较好地泛化到这些规则上,说明其学习依赖于共享的逻辑成分而非规则特定的启发式。
结论与意义
本研究有力地证明,LLM能够模拟人类在逻辑规则学习中的行为,甚至在某些方面超越了传统的符号认知模型。它们并非简单地“实施”已有的贝叶斯pLoT模型,而是可能提供了一种新的理论框架,用以解释人类如何获取和运用逻辑(或类逻辑)算子。这一发现对认知科学具有深远意义:首先,它挑战了长期以来认为神经网络无法胜任高阶逻辑推理的观点;其次,LLM所展现的推理机制可能与人类更为相似,尤其是在假设提出和证据整合方面;最后,这项工作为未来研究指明了方向——通过 mechanistic interpretability(机制可解释性)分析LLM内部表征,或许能揭示人类逻辑思维背后的神经计算原理。
总之,大型语言模型不再仅仅是工程奇迹,它们正在成为探索人类认知奥秘的强大工具,有望引领一场认知科学领域的范式转移。
生物通微信公众号
知名企业招聘