TaskEval:评估大型语言模型代码生成任务的难度
《ACM Transactions on Software Engineering and Methodology》:TaskEval: Assessing Difficulty of Code Generation Tasks for Large Language Models
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Software Engineering and Methodology
编辑推荐:
大语言模型在代码生成任务中的评估存在任务难度和提示形式单一的问题,本文提出TaskEval框架,通过多样化提示和项目反应理论评估模型能力与任务特性,利用HumanEval+和ClassEval基准测试8种LLM,发现任务难度与变量赋值、条件语句等编程结构相关,并与人类标注结果对比验证方法有效性,为改进LLM评估提供新视角。
摘要
大型语言模型(LLMs)在代码生成等与代码相关的任务中表现出色,但基准测试评估往往忽略了任务的特性,例如难度。此外,基准测试通常使用单一提示来构建任务,尽管提示的制定对结果有着深远的影响。本文介绍了一种通用方法 TaskEval,该框架利用多种提示和项目反应理论(IRT)来有效评估 LLMs 的能力及任务特性,从而提高对其性能的理解。
通过使用两个代码生成基准测试 HumanEval+ 和 ClassEval,以及 8 个代码生成 LLM,我们证明了 TaskEval 能够描述任务的属性。通过主题分析,我们识别并分析了基准测试中包含的 17 个和 21 个主题的任务。我们还分析了任务特性与 LLMs 使用的编程结构(如变量赋值、条件等)之间的关联,强调了任务难度的一些模式。最后,我们对人类注释者和 LLMs 对任务难度的评估结果进行了比较。与当前的基准测试评估方法不同,TaskEval 可以帮助研究人员和实践者更准确地评估 LLMs。任务特性可用于发现现有基准测试中的不足之处,或改进 LLMs 的评估方式。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号