Blueprint2Code：基于蓝图规划与修复的多智能体代码生成框架

《Frontiers in Artificial Intelligence》：Blueprint2Code: a multi-agent pipeline for reliable code generation via blueprint planning and repair

【字体：大中小】 时间：2025年10月18日 来源：Frontiers in Artificial Intelligence 4.7

编辑推荐：

　　本文提出Blueprint2Code多智能体框架，通过预览（Previewing）、蓝图（Blueprint）、编码（Coding）和调试（Debugging）四阶段协作，模拟人类编程工作流。实验表明，该框架在HumanEval、MBPP等基准数据集上显著提升大语言模型（LLM）的代码生成准确率（如GPT-4o在HumanEval达96.3%），并在轻量模型（如GPT-4o-mini）中保持优势，为复杂编程任务提供可靠解决方案。

1 Introduction

自动化代码生成是计算机科学领域的关键研究方向，其目标是通过自动生成计算机代码减少人工干预，在多种实际场景中展现出重要价值。随着大语言模型（LLM）的快速发展，代码生成领域取得了显著进展。然而，面对复杂编程任务时，现有方法仍存在明显局限，特别是在理解问题需求、进行多步推理以及生成能通过完整测试用例的函数代码方面。

尽管LLM在代码生成方面展现出强大能力，尤其在函数补全和简单任务生成中表现突出，但在处理复杂任务时仍存在明显不足。当前主流方法可分为两类：一类是基于提示的直接生成方法，如直接生成（Direct）、思维链（CoT）和自我规划（Self-Planning），这些方法通过静态推理生成代码，但往往缺乏全局规划和可控性；另一类引入自反馈机制，如Reflexion和MapCoder，通过引导模型自检或自规划来提高生成质量，但这些过程主要依赖单一模型内的闭环推理，缺乏明确的模块化结构和阶段间协作，难以模拟真实开发工作流中的"预览-规划-编码-调试"完整过程。

这一局限在编程竞赛数据集如APPS中尤为明显，此类任务对输入输出格式有严格要求，涉及复杂算法、多步逻辑、边界处理和性能优化，是评估代码生成系统综合能力的关键测试场景。现有模型往往难以一次性生成通过所有测试用例的代码，暴露出在上下文保持、任务分解和长程依赖建模方面的不足。因此，构建具有明确阶段划分、信息流协调和错误修复能力的代码生成系统仍是亟待解决的挑战。

2 Materials and methods

2.1 Relate work

2.1.1 Prompt engineering

随着大语言模型在代码生成任务中的广泛应用，提示工程被视为提升模型泛化能力和可控性的关键方法之一。近年来，大量研究致力于设计更具指导性的提示结构，以引导模型在生成过程中进行自反馈、自修正和逻辑推理。例如，自优化方法通过提供高质量示例和递归调用，使模型能够在连续轮次中迭代优化自身代码输出；自调试策略则通过比较模型输出与现有测试用例，自动生成修复建议，甚至在没有测试数据的情况下通过代码的自然语言解释实现错误定位。此外，一些方法如CodeCoT引入思维链结构，将生成过程划分为"问题分析-代码生成-测试验证"等多个阶段，从而强化模型的推理路径。然而，这些方法通常依赖静态生成或单一模型内的闭环过程，难以处理逻辑复杂度高、测试空间大的问题，且缺乏明确的阶段划分和协作机制，在错误检测和功能对齐方面存在明显瓶颈。

2.1.2 Large language models and code generation

大语言模型在代码生成任务中取得了突破性进展，特别是在理解自然语言任务描述和自动生成可执行代码方面表现出色。代表性模型如Codex、CodeLlama、DeepSeek Coder和StarCoder通过在大规模代码语料库上进行训练和对齐，能够从复杂语义描述中抽象出程序结构。这些模型在代码补全、函数实现和文档生成等任务中展现出较高准确率，显著提升了程序员的工作效率。然而，面对需要多步推理、边界情况处理和算法设计的复杂任务时，其能力仍有限制。特别是在编程竞赛数据集上，这些模型往往难以一次性生成通过所有测试用例的完整解决方案，暴露出在上下文规划、状态管理和长程依赖建模方面的不足。此外，LLM输出的固有变异性进一步加剧了输出不稳定性问题，为安全关键的实际应用带来挑战。

2.1.3 Multi-stage prompting and multi-agent approaches

为提升大语言模型在复杂代码生成任务上的性能，研究者逐渐从单次生成转向多阶段推理和多模块协作。在提示设计层面，思维链、自我规划和思维树等方法引导模型显式输出中间推理步骤或子任务计划，从而提升其逻辑推理和任务分解能力。从系统架构角度，Reflexion、自我协作和AlphaCodium等方法引入带反馈循环的生成工作流，旨在模拟人类开发者通常采用的编码、测试和调试的迭代循环。这些方法通常包含"分析器"和"测试器"等虚拟角色，以增强错误检测覆盖率和修正针对性。然而，此类策略仍面临若干挑战，包括测试生成的可靠性、反馈机制的可控性以及不同角色间缺乏显式上下文共享。因此，设计具有清晰阶段分离、共享上下文流和有效智能体协作的结构化代码生成框架仍是未来研究的重要方向。

2.2 Methodology

本研究目标是开发一个面向竞争性编程问题的多智能体代码生成框架。该框架通过四个核心智能体模拟人类程序员的认知过程：预览智能体、蓝图智能体、编码智能体和调试智能体。具体而言，预览智能体从模型内部知识库检索相关算法模式和问题解决策略，建立技术上下文；基于此信息，蓝图智能体构建层次化解决方案计划，并通过基于置信度的评估机制选择最优策略；编码智能体严格遵循竞争性编程规范实现解决方案，同时处理边界情况和复杂度约束；调试智能体使用测试驱动的反馈机制迭代优化代码，完成从分析、规划、实现到验证的闭环过程。为实现智能体间的有效协作，框架采用结构化中间表示，并支持多轮迭代优化，确保最终生成的解决方案满足竞争性编程的严格标准，同时保持算法效率和鲁棒性。

2.2.1 Previewing Agent

预览智能体旨在模拟人类程序员在实际编码前进行的初步理解和信息提取过程。给定自然语言问题描述及示例输入输出，预览智能体生成任务摘要，建议可能相关的算法类别，并提供关键解题提示，以辅助后续智能体更有效地进行规划和编码。与传统基于检索的方法不同，预览智能体不依赖外部知识库，而是利用结构化提示引导大语言模型仅基于问题本身进行自我解释。设计的提示模板覆盖任务类型识别、输入输出特征提取和策略关联，使模型能够主动捕捉任务的基本特征。实验结果表明，该阶段显著提升了后续蓝图规划和代码生成的准确性，特别是对于包含隐含条件或边界情况陷阱的问题。

2.2.2 Blueprint Agent

蓝图智能体负责为给定问题生成结构化解决方案计划，实质上是代码的"设计蓝图"。它以预览智能体提供的任务摘要、算法提示和关键点作为输入，输出包含算法逻辑、边界情况处理和数据结构选择的逐步解决策略。设计了结构化提示模板，引导大语言模型按照"任务目标、关键操作、输出构建"的顺序生成清晰的问题解决步骤。与思维链等方法不同，蓝图智能体产生的是面向实现的逻辑流而非通用推理轨迹。为增加生成策略的多样性，设置候选蓝图数量k=3，产生三种不同的解决方案计划。系统随后采用基于语言模型的结构化自评估机制对每个蓝图进行评分，具体通过辅助提示要求模型在完整性、可行性、边界情况处理、效率和整体质量五个维度对蓝图评分。提取置信度分数并对候选计划进行排序，选择得分最高的蓝图作为后续编码阶段的输入。这种结构化评估机制不仅提高了计划选择的合理性，还增强了智能体间通信的可控性和可解释性。实验证明，高质量的蓝图规划有助于编码智能体产生更准确的初始代码，并减少所需调试轮次。

2.2.3 Coding Agent

编码智能体负责基于蓝图智能体提供的逐步解决方案生成可执行程序代码。该阶段专注于将高级算法计划准确映射为目标编程语言中的具体实现细节。为确保一致性和可靠性，使用包含问题描述、蓝图计划和示例输入输出对的结构化提示模板约束智能体输入，同时采用少量示例增强风格一致性和边界情况处理的鲁棒性。每次编码尝试后，智能体自动执行生成代码以验证是否通过提供的示例测试用例。若测试成功，则接受代码作为最终输出；否则将控制权移交调试智能体进行优化。这种自动验证机制在确保功能正确性的同时避免了冗余或无效的生成。

2.2.4 Debugging Agent

调试智能体旨在模拟人类程序员基于测试反馈修复代码的行为。当编码智能体生成的代码未能通过所有示例测试用例时，调试智能体利用原始问题描述、蓝图计划和错误代码执行逐步分析和修订。引导大语言模型遵循"错误分析、修订策略、代码修复"的结构化推理模式，并明确要求其先补全缺失的逻辑步骤再应用修改，从而确保修复过程的一致性和可控性。与Reflexion等依赖生成额外测试用例的方法不同，该方法仅使用原始示例输入输出，避免合成样本可能引入的不准确性。为限制不必要的修复循环，设置最大调试迭代次数t=5；五次尝试失败后，系统自动回退至次优蓝图重新尝试。实验表明，调试智能体显著提高了整体代码生成成功率，是框架中最关键的组件之一。

3 Experiments

3.1 Datasets

为全面评估Blueprint2Code在不同任务复杂度下的性能，在五个数据集上进行了实验：两个广泛使用的公共基准HumanEval和MBPP，它们的扩展版本HumanEval-ET和MBPP-ET，以及来自公共平台的竞争性编程数据集APPS。HumanEval主要包含函数级实现任务，强调模型理解自然语言描述并与测试用例对齐的能力；MBPP侧重于评估基础编程技能；HumanEval-ET和MBPP-ET通过增强测试用例的覆盖范围和复杂性，支持对模型鲁棒性进行更细粒度评估；APPS数据集包含从基础到竞赛级难度的真实编程问题，具有丰富的输入输出示例和更自然的语言描述，是评估大语言模型综合能力的关键基准。

3.2 Baselines

将Blueprint2Code与若干基线和最先进方法进行比较。直接生成指仅基于数据集提供的问题描述提示LLM编写代码，完全依赖模型内部能力；思维链鼓励模型在生成解决方案前进行逐步推理；自我规划将任务分解为独立的规划和执行阶段；Reflexion通过提示模型从先验训练数据中回忆相关技术和算法来提高代码准确性。

3.3 Related settings

使用OpenAI的大语言模型，包括ChatGPT（基于GPT-3.5-turbo）和GPT-4（基于GPT-4o）进行所有实验。采用的评估指标为Pass@k，即k个生成代码样本中至少有一个通过所有测试用例则认为问题解决。所有实验中固定候选蓝图数量k=3，最大调试迭代次数t=5。这些参数基于相关工作中常用设置和初步实证分析选择，平衡了解决方案多样性、系统稳定性和计算成本。虽然当前配置在各种任务和模型设置中表现出稳定性能，未来工作将通过变化k和t值进一步探索蓝图多样性与调试开销间的权衡，以系统优化生成质量和效率。

4 Results

为全面评估Blueprint2Code在代码生成任务上的性能，在五个数据集上将其与几种代表性方法进行比较，包括直接生成、思维链、自我规划、Reflexion和MapCoder。所有方法在相同评估协议下测试，并部署在两个大语言模型平台上：ChatGPT（基于GPT-3.5-turbo）和GPT-4o。此外，为进一步评估框架在资源受限环境中的适用性，引入GPT-4o-mini（8B）作为轻量模型，进行比较分析以评估Blueprint2Code在小模型设置下的可迁移性和性能稳定性。

4.1 Comparative experiments with large models

表1展示了不同方法在五个基准数据集上使用两种语言模型的Pass@1准确率。总体而言，Blueprint2Code在所有数据集和模型配置下均取得最佳性能，展现出强大的任务适应性和模型泛化能力。

在GPT-3.5-turbo设置下，Blueprint2Code在HumanEval、MBPP、HumanEval-ET、MBPP-ET和APPS上分别达到90.8%、85.4%、75.6%、57.2%和12.0%的Pass@1分数。与直接生成基线相比，Blueprint2Code在所有数据集上均表现出显著提升，特别是在需要复杂推理和鲁棒泛化的任务上。此外，与结构感知的MapCoder框架相比，分别实现12.8%、8.9%、7.8%、5.1%和5.8%的相对改进，证实了所提多智能体设计在提升代码合成质量和可靠性方面的有效性。

在GPT-4o模型配置下，Blueprint2Code性能进一步提升，在五个数据集上分别达到96.3%、88.4%、86.5%、59.4%和24.6%的Pass@1准确率。与直接生成基线相比表现出持续优势；与MapCoder框架相比实现2.6%至11.8%的相对改进，表明其在结构化推理、测试用例覆盖和复杂编程任务鲁棒泛化方面的增强有效性。

这些结果共同证明Blueprint2Code在中等容量和高等容量模型下均表现出稳定的性能优势。特别是在扩展基准HumanEval-ET和MBPP-ET上的持续强劲表现，进一步验证了其泛化能力和对复杂任务场景的适应性。

4.2 Transferability experiments on lightweight models

为评估Blueprint2Code的轻量适用性及其在资源受限环境中的性能，使用GPT-4o-mini在HumanEval数据集上进行了额外实验，并与MapCoder等其他基线方法比较。如图3所示，尽管大多数方法在GPT-4o-mini上相比GPT-4o结果出现轻微性能下降，但Blueprint2Code仍保持对所有基线的明显性能优势。这表明Blueprint2Code在小模型设置下仍保持有效，具有强大的任务分解和协调能力，显示出良好的可迁移性和实用价值。这些结果进一步验证了多智能体架构在增强模型性能方面的补充作用——特别是对于推理能力较弱的LLM，智能体间协作有助于弥补规划和调试方面的限制。值得注意的是，虽然当前实验依赖OpenAI提供的商业模型，但Blueprint2Code的设计是模型无关的，具有可轻松扩展至本地开源模型的模块化接口，为在边缘设备或低资源场景中部署铺平道路。此外，基于任务复杂度动态调整智能体执行顺序和数量的自动自适应协作策略是未来研究的有前景方向。

4.3 Ablation study

为分析Blueprint2Code框架中各智能体的贡献，在HumanEval数据集上进行了消融研究，通过在GPT-3.5-turbo设置下选择性移除预览智能体、蓝图智能体和调试智能体。结果如表2所示。实验表明，移除任何智能体都会导致性能下降，但程度各异。具体而言，移除调试智能体导致最显著下降，准确率降至64.6%，比完整系统降低28.9%，突显了调试在提高代码正确性和测试用例通过率方面的关键作用。移除蓝图智能体和预览智能体分别导致77.4%和76.8%的准确率，反映14.8%和15.4%的下降，表明结构化规划和任务理解在确保代码质量方面也起重要作用。这些发现证明多智能体架构通过所有组件的协同作用实现其有效性。在复杂代码生成任务中，早期任务理解和结构化规划为高质量初始代码提供坚实基础，而调试阶段作为正确性保证的重要机制。未来工作将探索动态智能体适应策略，如基于任务复杂度自动调整阶段数或迭代轮数，以进一步提升框架效率和稳定性。

4.4 Robustness and error analysis

所提Blueprint2Code在三种不同模型配置下始终优于所有基线，表明其改进不依赖于特定模型容量。消融研究进一步证明移除任何智能体都会导致性能大幅下降，确认了多智能体设计的鲁棒性。

除"全智能体移除"基线外，还评估了部分配置，结果确认每个组件对整体性能均有积极贡献。未来工作将探索基于问题复杂度的动态智能体调度策略，以进一步提升效率和鲁棒性。

5 Conclusion and future works

本文提出Blueprint2Code，一个面向复杂编程任务的多智能体代码生成框架。受人类开发者认知工作流启发，生成过程划分为四个不同阶段：预览、蓝图规划、代码实现和调试，每个阶段由专用智能体处理。通过结构化提示和模块化设计，框架增强了大语言模型在任务理解、策略规划和错误修正方面的能力。为验证其有效性，在五个数据集上进行了全面评估：两个广泛使用的公共基准及其扩展版本，以及APPS竞争性编程数据集。实验结果表明，Blueprint2Code在Pass@1准确率上持续优于思维链、Reflexion和MapCoder等现有方法。值得注意的是，它在小模型资源受限设置下仍保持强劲性能，展现出优异的通用性和实用价值。总体而言，通过引入显式的多阶段协作机制和智能体专业化，Blueprint2Code提高了代码生成系统的稳定性、可解释性和可扩展性，为构建可靠且可泛化的自动化编程框架提供了新途径。

尽管Blueprint2Code表现出强大性能，仍有若干有前景的未来研究方向。当前智能体协作遵循固定执行顺序；未来工作可能探索更灵活策略，如基于任务复杂度动态调整智能体调用顺序和频率。使框架适应本地开源模型是迈向实际部署的重要步骤。最后，计划扩展Blueprint2Code能力以支持多语言和多任务场景，如调试文档生成和跨语言翻译，进一步提升其实用性和可扩展性。