综述:释放大语言模型提示工程的潜力

【字体: 时间:2025年05月09日 来源:Patterns 6.7

编辑推荐:

  这篇综述聚焦提示工程在大语言模型(LLMs)中的应用。探讨了基础及先进的提示工程方法,评估了提示方法的有效性,阐述其在多领域的应用,还讨论了 LLMs 安全问题及未来方向,为相关研究与应用提供了全面参考。

  

引言


近年来,大语言模型(LLMs)推动人工智能(AI)的自然语言处理(NLP)能力快速发展。LLMs 凭借其庞大的规模和多样的功能,能处理从信息提取到内容创作等多种任务。多模态大模型(MMLMs)进一步拓展了 AI 的边界,使其能够处理图像、音频等多种数据形式。在这样的背景下,提示工程应运而生,它通过精心设计输入提示,对提升 LLMs 的效用和准确性至关重要,已从经验实践发展成为一个结构完善的研究领域。

提示工程基础


  1. 模型介绍:GPT-4:GPT-4 由 OpenAI 开发,架构基于 transformer,通过强化学习从人类反馈(RLHF)进行微调。其输出质量受提示设计和模型超参数等因素影响,例如温度和 top-p 值可控制输出的随机性和多样性。
  2. 提供指令:清晰精确的指令对引导模型生成准确相关的输出至关重要。模糊或笼统的指令会使模型输出缺乏针对性,详细具体的指令能缩小响应范围,使输出更符合预期目标。
  3. 角色提示:包括静态角色提示和动态角色扮演提示。静态角色提示让模型模拟固定角色,如 “你是历史学家,描述罗马帝国衰落的原因”;动态角色扮演提示则根据用户输入动态调整输出,增强了交互性和适应性。
  4. 使用分隔符进行分隔:分隔符(如三引号或自定义符号)用于分隔提示的不同部分,可减少提示注入攻击风险,确保模型准确解释输入元素。
  5. 多次尝试:由于 LLMs 的非确定性,多次生成同一提示的响应(重采样)有助于获得高质量、可靠的输出。
  6. 一次性或少量样本提示:一次性提示给模型提供单个示例,少量样本提示提供多个示例。选择哪种方式取决于任务复杂度和模型能力,有时零样本提示在某些场景下也能取得不错的效果。

先进方法


  1. 思维链提示(Chain-of-thought prompting):通过提供中间推理步骤引导模型响应,能显著提高 LLMs 在逻辑推理任务中的准确性,还可通过 “让我们一步一步思考” 等简单提示或手动演示实现。其多模态扩展(multimodal CoT)能处理更复杂的多模态任务。
  2. 零样本思维链提示(Zero-shot CoT prompting):是思维链提示的高级形式,模型无需在训练中见过目标任务的示例,就能进行推理。在查询中添加 “让我们一步一步思考” 可促使模型生成更精确的答案。
  3. 黄金思维链方法(Golden CoT method):将一组真实的思维链解决方案直接融入提示,可简化模型任务,但依赖真实解决方案的特点限制了其应用。
  4. 自一致性(Self-consistency):通过生成多种推理路径并选择最一致的答案,提高模型结果的准确性。该方法可与多种采样算法结合,在算术、常识和符号推理等任务中表现出色。
  5. 生成知识(Generated knowledge):在生成最终响应前,让模型生成与问题相关的有用信息,能增强模型在常识推理任务中的表现,使输出更具逻辑性和全面性。
  6. 从少到多提示(Least-to-most prompting):将复杂问题分解为一系列简单子问题,依次解决,每个子问题的解作为下一个子问题的基础,在数学推理等多个领域效果显著。
  7. 思维树(Tree of thoughts):允许 LLMs 在生成最终解决方案前探索多种推理路径,使模型更灵活地应对复杂任务,在数学问题解决中表现出色。
  8. 思维图(Graph of thoughts):将 LLMs 生成的信息建模为任意图形,通过分析图形得出精确、多方面的解决方案,是对思维链和思维树框架的推广。
  9. 分解提示(Decomposed prompting):将复杂任务分解为更简单的子任务,由专门的处理程序处理。该方法具有模块化、可优化、可纠错等优点,在符号推理和多步问答等任务中表现优异。
  10. 主动提示(Active prompting):通过战略性选择和标注任务特定示例,提高 LLMs 的推理能力。该方法注重选择最不确定和最具信息性的问题,利用人类专业知识提升模型性能。
  11. 提示模式目录(Prompt pattern catalog):是一组有组织的提示模板和模式,可简化提示工程,提高效率和一致性。预定义的提示模式涵盖输入语义、输出定制等多个方面,能满足不同任务需求。
  12. 提示优化:旨在自动调整提示以提高其准确性和相关性。包括基于梯度的方法(如 ProTeGi)、黑箱方法和模型自适应方法(如 MAPO)等,每种方法都有其优势,适用于不同的任务和模型。
  13. 检索增强(Retrieval augmentation):通过将最新的外部知识融入模型输入,减少模型生成内容中的幻觉现象,提高输出的准确性和可靠性。
  14. 推理与主动交互:包括自动推理和工具使用(ART)以及 ReAct 框架。ART 结合思维链提示和外部工具,提高模型输出的逻辑连贯性和准确性;ReAct 框架则将推理与行动相结合,使 LLMs 能有效处理复杂的多步任务。

多模态大模型的方法


  1. 零样本和少样本提示:在视觉语言模型(VLMs)中同样重要,可使模型在极少或无任务特定训练数据的情况下处理任务,如 CLIP 模型可通过文本描述对未训练过的图像进行分类。
  2. 连续提示向量:通过在训练过程中学习连续提示向量,对预训练的 VLMs 进行微调,以适应复杂的视频理解任务,计算成本低且性能出色。
  3. 上下文优化(CoOp):为 VLMs 设计的提示学习方法,通过引入可学习的上下文向量,优化特定任务的提示,在图像识别和视觉问答(VQA)等任务中表现优异。
  4. 条件上下文优化(CoCoOp):基于特定条件或上下文动态调整提示,通过轻量级神经网络生成输入条件提示向量,提高模型在图像字幕和 VQA 等任务中的适应性和准确性。
  5. 多模态提示学习(MaPLe):同时引入和优化视觉和语言组件的提示,通过分层学习机制,在图像识别和 VQA 等任务中优于基线模型。

评估提示方法的有效性


  1. 主观和客观评估:提示工程的评估需要结合主观和客观方法。主观评估依赖人类评估者判断生成内容的质量,包括流利度、准确性等方面;客观评估则使用算法或基准测试来量化提示方法的有效性。
  2. 主观评估:通过人类评估者对模型生成内容进行评分,如使用 “好摘要” 标准评估 GPT-4 生成摘要的有效性,或在创意写作任务中比较不同方法的输出。
  3. 客观评估:使用算法评估模型生成内容的质量,如双语评估研究(BLEU)评分、召回率导向的摘要评估(ROUGE)等。还可通过特定任务的基准测试,如数学应用题、问答任务等,评估模型的性能。
  4. 不同提示方法的比较:通过比较不同提示方法在基准测试中的得分,评估其性能。还可考虑经济成本、速度提升等其他指标,更全面地比较模型解决任务的能力。

提示工程改进的应用


  1. 教学评估:提示工程可创建个性化学习环境,实现自动评分,分析评估数据,为教育提供有价值的见解。
  2. 内容创作与编辑:LLMs 在内容创作中应用广泛,如通过提示生成跨语言短故事、控制故事连贯性等。
  3. 计算机编程:提示工程有助于 LLMs 更好地生成代码,如通过自我调试提示方法、多步自然语言提示等实现。
  4. 推理任务:合适的提示可提高模型在推理任务中的性能,如在数学应用题推理中,零样本思维链提示能显著提升模型表现。
  5. 数据集生成:LLMs 可通过提示生成合成数据集,用于训练更小的领域特定模型。
  6. 智能体:提示工程对任务导向的 AI 智能体和通用智能体 AI 都至关重要,能增强指令解释、引导自适应行为和优化工具使用。

LLMs 安全


  1. 训练阶段攻击:包括数据中毒和后门攻击。数据中毒攻击通过注入恶意数据影响模型训练,后门攻击则在模型中植入隐藏漏洞,可在推理时被特定触发激活。
  2. 推理阶段攻击:如提示级对抗攻击,通过在输入中注入恶意文本诱导模型产生不良输出;模型窃取攻击则试图复制模型功能或提取其专有知识。
  3. 防御和缓解措施:针对训练阶段攻击,可采取数据净化、模型检查等防御措施;针对推理阶段攻击,可使用严格的提示验证、分层内容审核和对抗训练等方法。
  4. 评估和基准测试:建立可靠的评估框架和标准化基准,对量化 LLMs 的漏洞、比较防御策略和指导更安全的模型部署至关重要。

展望


  1. 更好地理解模型结构:深入了解 LLMs 的底层结构,有助于设计更有效的提示,提高模型性能。激活补丁等方法可分析模型内部动态,为提示策略的优化提供依据。
  2. 迈向语义理解:尽管 LLMs 在推理和上下文处理方面取得了进展,但真正的语义理解仍是挑战。未来需通过更严格的评估和整合外部知识,确保模型的输出基于真正的语义理解,而非模式识别。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号