大型语言模型的推理能力:对抽象与推理语料库的深入分析

《ACM Transactions on Intelligent Systems and Technology》:Reasoning Abilities of Large Language Models: In-Depth Analysis on the Abstraction and Reasoning Corpus

【字体: 时间:2025年11月08日 来源:ACM Transactions on Intelligent Systems and Technology

编辑推荐:

  大语言模型在抽象与推理语料库评估中表现不足,尤其在逻辑连贯性、组合性和生产力方面显著低于人类水平。我们引入思想语言假设视角,建立过程导向的评估方法。

  

摘要

目前用于评估大型语言模型(LLMs)推理能力的方法主要集中在结果上,这使得全面评估推理过程变得困难。我们引入了一种新的方法,利用“抽象与推理语料库”(Abstraction and Reasoning Corpus, ARC)作为基准,从过程的角度来评估LLMs的推理和上下文理解能力,重点关注“思维语言假说”(Language of Thought Hypothesis, LoTH)中的三个关键组成部分:逻辑连贯性(Logical Coherence)、组合性(Compositionality)和生产力(Productivity)。我们精心设计的实验表明,尽管LLMs具备一定的推理能力,但在这三个方面仍明显落后于人类水平。本文的主要贡献在于引入了LoTH视角,提供了一种评估推理过程的方法,而传统的以结果为导向的方法无法捕捉到这一过程,从而为人工智能系统中人类水平推理的发展提供了新的见解。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号