大型语言模型的推理能力：对抽象与推理语料库的深入分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Intelligent Systems and Technology》：Reasoning Abilities of Large Language Models: In-Depth Analysis on the Abstraction and Reasoning Corpus

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Intelligent Systems and Technology

编辑推荐：

　　大语言模型在抽象与推理语料库评估中表现不足，尤其在逻辑连贯性、组合性和生产力方面显著低于人类水平。我们引入思想语言假设视角，建立过程导向的评估方法。

摘要

目前用于评估大型语言模型（LLMs）推理能力的方法主要集中在结果上，这使得全面评估推理过程变得困难。我们引入了一种新的方法，利用“抽象与推理语料库”（Abstraction and Reasoning Corpus, ARC）作为基准，从过程的角度来评估LLMs的推理和上下文理解能力，重点关注“思维语言假说”（Language of Thought Hypothesis, LoTH）中的三个关键组成部分：逻辑连贯性（Logical Coherence）、组合性（Compositionality）和生产力（Productivity）。我们精心设计的实验表明，尽管LLMs具备一定的推理能力，但在这三个方面仍明显落后于人类水平。本文的主要贡献在于引入了LoTH视角，提供了一种评估推理过程的方法，而传统的以结果为导向的方法无法捕捉到这一过程，从而为人工智能系统中人类水平推理的发展提供了新的见解。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号