大型语言模型的推理能力:对抽象与推理语料库的深入分析
《ACM Transactions on Intelligent Systems and Technology》:Reasoning Abilities of Large Language Models: In-Depth Analysis on the Abstraction and Reasoning Corpus
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Intelligent Systems and Technology
编辑推荐:
大语言模型在抽象与推理语料库评估中表现不足,尤其在逻辑连贯性、组合性和生产力方面显著低于人类水平。我们引入思想语言假设视角,建立过程导向的评估方法。
摘要
目前用于评估大型语言模型(LLMs)推理能力的方法主要集中在结果上,这使得全面评估推理过程变得困难。我们引入了一种新的方法,利用“抽象与推理语料库”(Abstraction and Reasoning Corpus, ARC)作为基准,从过程的角度来评估LLMs的推理和上下文理解能力,重点关注“思维语言假说”(Language of Thought Hypothesis, LoTH)中的三个关键组成部分:逻辑连贯性(Logical Coherence)、组合性(Compositionality)和生产力(Productivity)。我们精心设计的实验表明,尽管LLMs具备一定的推理能力,但在这三个方面仍明显落后于人类水平。本文的主要贡献在于引入了LoTH视角,提供了一种评估推理过程的方法,而传统的以结果为导向的方法无法捕捉到这一过程,从而为人工智能系统中人类水平推理的发展提供了新的见解。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号