大型语言模型的多步推理:一项综述

《ACM Computing Surveys》:Multi-step Reasoning with Large Language Models, A Survey

【字体: 时间:2025年11月07日 来源:ACM Computing Surveys

编辑推荐:

  大型语言模型(LLMs)通过上下文学习实现 few-shot 学习,但传统模型在基础推理任务表现不佳。新提出的 Chain-of-thought 方法显著提升了多步推理能力,在数学、逻辑、组合游戏及机器人任务中取得突破,常结合代码生成与外部工具执行,并采用强化学习、优化循环等技术优化推理过程。

  

摘要

拥有数十亿参数的大型语言模型(LLMs)具备上下文学习能力,这使得它们能够在模型未专门训练过的任务上进行少样本学习。传统模型在语言任务上取得了突破性成果,但在基本推理基准测试中的表现不佳。然而,一种新的上下文学习方法——“思维链”(Chain-of-thought)在这些基准测试中展现了强大的多步推理能力。
关于LLMs推理能力的研究最初是探讨它们是否能够解决小学数学应用题,近年来已扩展到其他任务领域。本文综述了利用LLMs进行多步推理的相关研究。我们提出了一种分类体系,用于识别生成、评估和控制多步推理的不同方法,并详细介绍了核心方法及存在的问题,同时为未来研究制定了议程。
我们发现,多步推理方法已经超越了数学应用题的范畴,现在能够成功解决逻辑学、组合游戏和机器人技术领域的挑战,有时这些过程需要先生成代码,再由外部工具执行。许多多步推理研究采用了强化学习进行微调、外部优化循环、上下文强化学习以及自我反思等技术。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号