高级语言模型是否消除了软件工程中提示工程(prompt engineering)的需求?
《ACM Transactions on Software Engineering and Methodology》:Do advanced language models eliminate the need for prompt engineering in software engineering?
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Software Engineering and Methodology
编辑推荐:
大型语言模型(LLMs)在软件工程任务中的有效性受限于提示工程技术的适配性,研究通过对比GPT-4o、Claude 3.5 Sonnet等先进模型与推理模型o1,发现复杂推理模型在需要逻辑的任务中优势显著,但增加成本;传统提示方法效果减弱,而基于反馈或任务导向的策略仍有效。研究为LLMs在SE中的选型提供指导,平衡性能与成本。
摘要
大型语言模型(LLMs)在软件工程(SE)任务中取得了显著进展,提示工程技术提升了它们在代码相关领域的性能。然而,像非推理模型(GPT-4o 和 Claude 3.5 Sonnet)以及推理模型 o1 这类基础 LLM 的快速发展,引发了人们对这些提示工程技术持续有效性的质疑。本文进行了一项广泛的实证研究,重新评估了在这些先进 LLM 情境下的各种提示工程技术。我们重点关注了五个具有代表性的 SE 任务,即代码生成、代码翻译、程序修复、代码摘要和提交信息生成,以评估提示工程技术在先进模型中是否仍然能够带来改进,推理模型与非推理模型相比的实际效果,以及使用这些先进模型所带来的收益是否能够证明其增加的成本是合理的。研究结果表明,一些为早期 LLM 开发的新型提示工程技术在应用于先进模型时可能会带来较小的收益,甚至可能降低性能。在推理型 LLM 中,内置的复杂推理能力减少了复杂提示的影响,有时在某些特定任务中简单的零样本提示更为有效。利用执行反馈或精确的任务特定指导的提示策略仍然有效,并且对于提高处理复杂相关代码问题的性能至关重要。此外,尽管推理模型在需要复杂推理的任务中表现优于非推理模型,但在不需要推理的任务中它们提供的优势微乎其微,且可能会产生不必要的成本。基于我们的研究,我们为实践者提供了选择合适的提示工程技术及基础 LLM 的实用建议,考虑了任务要求、运营成本和环境影响等因素。我们的工作有助于更深入地理解如何在 SE 任务中有效利用先进 LLM,为未来的研究和应用开发提供参考。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号