大脑启发的模块化智能体架构MAP:提升大语言模型规划能力的新范式
《Nature Communications》:A brain-inspired agentic architecture to improve planning with LLMs
【字体:
大
中
小
】
时间:2025年10月01日
来源:Nature Communications 15.7
编辑推荐:
本文推荐一项创新性研究。为解决大语言模型(LLM)在多步推理和目标导向规划任务中的显著缺陷,研究人员受人类前额叶皮层(PFC)功能模块化的启发,开展了名为“模块化智能体规划器(MAP)”的主题研究。该架构通过协调多个功能专一的LLM模块(如冲突监控、状态预测、任务分解等),显著提升了LLM在汉诺塔(ToH)、图遍历、PlanBench基准和StrategyQA等一系列复杂规划任务中的性能,且能与更小、更经济的LLM(如Llama3-70B)有效结合。这项研究为增强人工智能的推理和规划能力提供了来自认知神经科学的新思路。
在人工智能领域,大型语言模型(LLM)如GPT-4展现出了令人惊叹的广泛能力,从流畅对话到代码生成,似乎无所不能。然而,当面临需要多步骤、有逻辑地规划路径才能解决的复杂任务时,例如经典的汉诺塔谜题或在陌生环境中寻找最短路径,这些模型往往显得力不从心。它们容易“幻想”出根本不存在的路径,陷入循环,或者提出违反任务规则的行动,暴露出在目标导向规划和忠实推理方面的核心短板。这就像一位知识渊博的学者,却缺乏将知识点串联成有效行动计划的能力。这一缺陷严重制约了LLM在需要深思熟虑和战略规划的更复杂、真实世界场景中的应用。
为何聪明的模型却不擅长“谋划”?有趣的是,当被单独询问时,LLM往往能表现出规划所需的某些基本能力,比如判断某个动作是否合法。问题在于,它们难以自主地协调这些能力来服务于一个终极目标。那么,如何才能赋予LLM更强的规划能力呢?研究人员将目光投向了自然界最杰出的规划系统——人类大脑。神经科学研究表明,人类的规划功能主要依赖于前额叶皮层(PFC),而PFC的不同子区域似乎专门负责规划过程中的不同组成部分,例如冲突监控(主要由前扣带皮层ACC负责)、状态预测与评估(与眶额皮层OFC相关)、任务分解与协调(涉及前额叶前部aPFC)等。尽管大脑是否严格模块化仍有争议,但这种“功能分工”的理念为构建更强大的AI规划系统提供了宝贵的启示。
受到这一大脑“蓝图”的启发,由Taylor Webb、Shanka Subhra Mondal和Ida Momennejad组成的研究团队在《Nature Communications》上发表了一项创新研究,提出了一种名为“模块化智能体规划器”(Modular Agentic Planner, MAP)的新架构。该研究的核心思想是:既然单个LLM难以协调各种规划子功能,何不构建一个“团队”,让多个LLM模块各司其职,共同协作来完成规划?MAP架构正是这样一个“专家委员会”,它包含了六个功能专一的LLM模块:
- •任务分解器(Task Decomposer):受aPFC启发,负责将宏大的最终目标分解为一系列更易实现的子目标。
- •执行者(Actor):类比于背外侧前额叶(dlPFC),根据当前状态和子目标提出可能的行动方案。
- •监控器(Monitor):受ACC启发,像一个严格的裁判,检查提议的行动是否违反任务规则,过滤掉无效动作。
- •预测器(Predictor):受OFC启发,预测执行某个行动后,环境状态将如何变化。
- •评估器(Evaluator):同样受OFC启发,评估某个预测状态对于实现目标的价值有多大。
- •协调器(Orchestrator):受aPFC启发,负责判断子目标或最终目标是否已经达成,并指挥整个流程。
这些模块通过精心设计的算法进行交互,形成一个完整的规划流程:首先分解任务,然后为每个子目标进行有限的树状搜索(由执行者提议行动,预测器预测结果,评估器打分),并由监控器确保行动的合法性,最终由协调器确认目标达成并输出完整的行动计划。
为验证MAP的有效性,研究人员在四项极具挑战性的任务上进行了测试。他们采用的主要技术方法包括:基于提示(Prompting)和少量示例的上下文学习(ICL)来配置每个LLM模块的功能;设计了行动提议循环、有限深度和宽度的树搜索(Tree Search)算法以及整体的计划生成算法来协调模块间交互;并在汉诺塔(ToH)、CogEval图遍历、PlanBench规划基准(包括物流和神秘积木世界任务)以及StrategyQA多步推理问答数据集上,与多种基线方法(如零样本学习、思维链CoT、思维树ToT、多智能体辩论MAD)进行了系统性的性能对比和消融实验分析。
在汉诺塔任务中,MAP展现出了压倒性的优势。在标准的3圆盘问题上,MAP平均解决了74%的问题(且在五次尝试中每个问题都至少成功一次),显著优于GPT-4的零样本(11%)、上下文学习(ICL)、思维链(CoT)、思维树(ToT)和多智能体辩论(MAD)等所有基线方法。更重要的是,在更具挑战性的、训练数据中未出现过的4圆盘问题上(OOD,分布外泛化),MAP依然能解决24%的问题,而表现最好的基线(GPT-4 CoT)仅解决了5%。这表明MAP不仅性能更强,而且具备更好的泛化能力。消融研究进一步揭示了每个模块的重要性:移除监控器会导致无效动作比例大幅上升至31%,且解决问题数量锐减;移除树搜索或任务分解器也会显著降低性能。这证明MAP的成功是多个脑启发模块协同作用的结果。
在图遍历任务中,MAP同样表现出色。在寻找最短路径的Steppath任务中,MAP对2步、3步路径实现了100%的解决率,对4步路径也达到了95%,远超所有基线。在需要灵活调整计划的Detour(绕路)和Reward Revaluation(奖励重估)任务中,MAP也优于或与最强基线持平。尤为关键的是,在所有图遍历任务中,MAP提出的无效动作(即尝试走不存在的边)比例极低(<1%),而许多基线方法则提出了相当数量的无效动作。这再次凸显了专用监控模块在防止模型“幻觉”和违反约束方面的关键作用。
在包含复杂物流运输和语义混淆的“神秘积木世界”的PlanBench基准测试中,由于问题复杂度高,进行树搜索成本巨大。研究人员测试了不包含树搜索的简化版MAP。结果显示,即使在没有树搜索的情况下,MAP在物流(Logistics)和神秘积木世界(Mystery BW)任务上的表现也显著优于所有基线方法(包括GPT-4 ICL, CoT, MAD)。在一个子问题集上的对比进一步表明,MAP的性能也大幅优于同样采用树搜索的ToT方法。这说明MAP架构本身,即使不依赖昂贵的树搜索,也能带来显著的规划能力提升。
为了检验MAP在更接近现实的多步推理问答任务上的表现,研究人员在StrategyQA数据集上进行了测试。MAP取得了87.7%的准确率,不仅超过了GPT-4 CoT(84.7%)和ToT(81.7%),甚至达到了人类参与者(87.0%)的水平。这表明MAP的益处不仅能应用于形式化的规划问题,也能迁移到需要常识和知识检索的开放域推理中。
研究还考察了MAP的跨任务泛化能力。实验表明,在从较小图形规划迁移到较大图形、从标准积木世界迁移到结构同构但语义混淆的神秘积木世界、甚至从汉诺塔迁移到完全不同的神秘积木世界任务中,MAP的迁移表现均优于GPT-4 ICL和CoT,显示出其更好的鲁棒性和泛化性。
综上所述,这项研究成功地证明,借鉴人类前额叶皮层的功能模块化原理来设计大语言模型的智能体架构,能够显著提升其多步推理和规划能力。MAP架构通过让多个专长不同的LLM模块协同工作,有效地克服了单一LLM在协调规划子功能方面的不足。该研究不仅在多个挑战性基准上取得了突破性的性能提升,还展示了其与更经济的小型LLM结合的可能性、优异的泛化能力,并通过消融实验验证了每个脑启发模块的必要性。当然,MAP目前主要适用于完全可观测的确定性环境,其计算成本相对较高,任务分解模块仍依赖精心设计的提示。未来的工作可以探索通过微调来进一步优化模块性能、降低开销,并将架构扩展到更复杂、开放的环境中。这项研究为增强人工智能的决策和规划能力开辟了一条富有前景的新途径,即深度融合认知神经科学的见解与大型语言模型的能力。它标志着在构建更智能、更可靠、更善于谋划的人工智能系统的道路上,我们迈出了坚实的一步。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号