SelfCorrect-Agent:朝着强大且可泛化的基于大语言模型(LLM)的智能体发展
《Neurocomputing》:SelfCorrect-Agent: Toward robust and generalizable LLM-based agents
【字体:
大
中
小
】
时间:2025年12月27日
来源:Neurocomputing 6.5
编辑推荐:
针对开源大语言模型代理在多样化任务和环境中的泛化能力不足问题,提出基于自我纠正机制的指令微调框架SelfCorrect-Agent。通过构建包含多种环境和任务的自合成数据集,结合环境反馈对模型错误行动进行迭代修正,有效缓解过拟合问题并提升鲁棒性,实验证明其显著优于现有方法。
何可青|傅大元|杨乐乐|徐伟然|王超
北京邮电大学,中国北京100876
摘要
基于大型语言模型(LLM)的智能体已经展示了它们以类似人类的方式处理复杂任务的能力。然而,开源LLM与GPT系列等商业系统之间存在显著的性能差距。在这项工作中,我们旨在通过指令调整来提高基于LLM的智能体的泛化能力。我们的初步观察表明,尽管当前的智能体训练语料库在保留的评估集上表现良好,但它们无法有效地泛化到未保留的集合。现有的智能体调整方法通常存在严重的格式问题,并且倾向于在较长时间内重复相同的错误。我们将这种泛化能力较弱的主要原因归结为在有限的手动设计的智能体环境上过拟合,以及对新环境的适应能力不足。这些智能体经常采取错误的行动步骤,无法从之前的经验中学习,而只是简单地记忆观察-行动对。为了解决这个问题,我们引入了SelfCorrect-Agent,这是一个新的智能体调整框架。其核心思想是利用轨迹中的观察来教模型识别和纠正自己的错误。具体来说,我们设计了一个智能体合成框架,该框架涵盖了广泛的环境和任务,使强大的LLM能够根据环境反馈修改其错误的行动。实验表明,SelfCorrect-Agent在跨多种智能体任务的泛化能力上显著优于现有的最先进方法。此外,它在受到干扰时表现出更强的鲁棒性,并在推理过程中产生更多样化的推理。总体而言,我们的结果突显了泛化能力和自我改进在智能体学习之间的紧密联系,为未来的研究提供了一个新的范式。
引言
语言智能体[19]、[26]利用大型语言模型(LLM)的强大能力进行环境感知、决策和行动执行,最近已成为应对复杂现实世界挑战的有希望的方法。包括AutoGPT[2]、GPT-Engineer[1]和BabyAGI[3]在内的多种智能体项目已经采用LLM作为它们的核心控制器,展示了在现实世界中部署的潜力。为了进一步增强像GPT-4这样的先进商业LLM的能力,人们积极探索了提示工程[10]、[34]、[39]和框架设计[24]、[33]。最近,开源LLM[9]、[14]作为专有GPT模型的可行替代品出现,取得了令人鼓舞的性能。
人们投入了大量努力通过微调来提高开源LLM的智能体能力。邓等人[8]、秦等人[21]设计了针对特定垂直领域的任务特定框架并整理了智能体数据集。在此基础上,曾等人[5]、[12]、[37]将范围扩展到多样化的智能体任务,并结合了高质量的思维链(CoT)推理[34]来提高在未见任务上的性能。虽然这些方法在保留的设置中取得了令人印象深刻的结果——训练和评估使用相同的环境——但它们对未保留任务的泛化能力仍然有限。为了解决这一挑战,曾等人[37]、陈等人[5]将特定于智能体的数据与ShareGPT[7]等通用对齐语料库结合起来。他们的发现表明,保持LLM的通用能力对于智能体的泛化至关重要,而仅使用智能体数据进行训练往往会导致在未保留任务上的性能下降。
在这项工作中,我们重新审视了仅使用特定于智能体的数据进行训练无法泛化到新环境的假设,并进一步研究了智能体泛化的根本原因。通过检查现有智能体调整方法在新环境中的错误,我们观察到大多数失败是由于格式错误、不合逻辑的推理和重复输出造成的。尽管结合通用数据可以部分缓解这些问题,但当前的智能体模型仍然倾向于坚持相同的错误,并且即使在环境提供明确的负面反馈时也会重复执行错误的行动。受到Shinn等人[24]、Madaan等人[18]的启发,我们将智能体能力的泛化与自我改进[18]联系起来,这种改进是由环境提供的反馈信号指导的。我们认为,一个有效的智能体应该能够识别自己的错误,并通过与环境的持续互动来修正之前的行动。这种自我改进使智能体能够从错误中学习,摆脱局部失败模式,并最终通过理性探索确定正确的行动序列。
基于这一见解,我们的目标是构建通用的智能体调整数据,并进一步揭示智能体泛化与自我改进之间的关系。为此,我们引入了一个智能体合成框架,该框架涵盖了广泛的环境和任务,利用大规模的人类角色数据[4]来表示多样化的专业角色和个人兴趣。这种智能体环境的多样性降低了对单一场景过拟合的风险。对于每个合成的环境及其相应的任务,我们使用强大的LLM来模拟多轮互动。每轮之后,验证器会检查格式或逻辑错误。每当检测到错误时,我们会保留错误的轮次,并提示LLM根据观察到的反馈来改进其行动。通过这一过程,最终的智能体数据会迭代地得到改进,直到达到正确的解决方案。我们观察到,在这种自我改进数据上调整智能体鼓励在面对挑战性情况时探索替代行动路径,从而在新环境中实现更强的泛化。
在本文中,我们介绍了
SelfCorrect-Agent,它研究了智能体调整中的自我改进以增强智能体的泛化能力。我们使用我们的合成数据对LLLaMA3[9]和Mistral-v0.3[14]进行了精细调整。我们在五个智能体评估任务上的实验表明,SelfCorrect-Agent显著优于现有的最先进的智能体调整方法。主要发现总结如下:
•尽管之前的智能体调整方法在保留的任务上提高了性能,但它们难以有效地转移到新的智能体任务上。相比之下,我们的SelfCorrect-Agent不仅仅记忆训练轨迹,而是学会自我纠正错误并探索更广泛的行动空间。
•实验结果表明,在标准轨迹上进行调整对智能体环境中的微小干扰(如行动描述的变化)非常敏感。相比之下,精细调整在这种环境变化下表现出更强的鲁棒性。
•进一步分析表明,智能体环境和推理模式的多样性在精细调整的有效性中起着关键作用。
部分片段
智能体微调
为了提高开源模型的决策能力,越来越多的工作致力于训练智能体轨迹。虽然一些模型采用了分解-然后执行的策略[36],但大多数模型更倾向于使用ReAct[34]。这些研究通常从现有数据集中采样,并使用SFT或DPO[22]等技术来提高它们解决保留问题的能力[5]、[12]、[29]、[30]、[37]。像AgentTuning、Agent-FLAN和AgentGen这样的模型被设计用来产生
数据合成
借鉴桌面角色扮演游戏(TRPGs)的概念,SelfCorrect-Agent的数据构建过程分为三个主要阶段:脚本构建、交互模拟和验证,如图1所示。在脚本构建阶段,LLM的任务是创建一个叙事结构,其中包括环境、任务和可能的行动,所有这些都是为特定角色量身定制的。在交互模拟阶段,LLM扮演着地牢
评估任务
我们选择了5个任务:Alfworld[25]、SciWorld[28]、BabyAI[6]和Jericho[11],这些任务都测试了模型的决策能力。此外,为了更全面地评估智能体的任务完成情况,我们采用了AgentBoard[16]框架进行实验。它包括两个评估指标:成功率和进度率。AgentBoard的提示已从仅行动格式修改为ReAct格式,将历史思想、行动和观察转换为聊天风格
结论
在这项工作中,我们通过智能体调整研究了开源LLM的泛化能力。尽管现有方法在保留的评估集上表现良好,但由于在有限的手动设计的智能体环境上过拟合,它们难以泛化到未保留的任务。我们引入了SelfCorrect-Agent,这是一种允许模型使用环境反馈来识别和纠正错误的方法。实验结果表明,SelfCorrect-Agent显著
未来工作
我们概述了几个未来的研究方向:
1.与外部工具和多模态信号的集成:研究自我纠正机制如何与工具使用、检索增强或多模态反馈相互作用,使智能体在改进过程中能够利用更丰富的上下文信息。
2.在异构环境中的更广泛泛化:将SelfCorrect-Agent扩展到动态的、部分可观察的或多智能体环境,以评估其在这些环境下的鲁棒性和适应性
局限性
我们的SelfCorrect-Agent的局限性在于两个方面:(1)当前的数据合成协议仍然很昂贵,因为使用了像GPT-4o这样的大型LLM。第4.7节还显示了开源模型(DeepSeek-v2.5)和GPT-4o合成数据之间的可测量性能差距。我们需要找到更小、更容易获取的模型来为开放研究合成智能体数据。(2)我们需要将SelfCorrect-Agent进一步扩展到更动态的或多智能体环境,以及在更多样化的环境中
CRediT作者贡献声明
何可青:撰写——原始草稿、方法论、调查、形式分析、概念化。傅大元:撰写——审阅与编辑、验证、调查、数据整理。杨乐乐:撰写——审阅与编辑、可视化、形式分析。徐伟然:撰写——审阅与编辑、监督、资金获取、概念化。王超:资源、调查。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。
傅大元是北京邮电大学的硕士研究生。他的研究方向是大型语言模型智能体。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号