评估用于自动评分的人工智能模型:用简单的语言解释问题——面临的挑战与需要考虑的因素
《ACM Transactions on Interactive Intelligent Systems》:Evaluating AI models for Autograding Explain in Plain English Questions: Challenges and Considerations
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Interactive Intelligent Systems
编辑推荐:
代码阅读能力评估研究采用多模型方法,包括基于大语言模型嵌入的SVM和GPT-4等。实验显示SVM准确率最高(86%-88%),GPT-4仅需少量人工干预,3D自动评分器能提供细粒度反馈。学生普遍认为GPT类评分器更友好,其中代码生成评分器最受青睐。
摘要
代码阅读能力在评估中一直未得到足够的重视,因为难以大规模地进行评估。先前的研究表明,代码阅读和代码编写是密切相关的技能;因此,能够评估和训练代码阅读能力可能对学生的学习至关重要。评估代码阅读能力的一种方法是使用“用简单语言解释代码”(Explain in Plain English, EiPE)问题,这类问题要求学生用自然语言描述一段代码的功能。以往的研究使用基于二元分类(正确/错误)的自动评分系统,并结合二元模型对学生答案进行评分,其效果与人工助教相当。我们利用来自17个EiPE问题的3,064份学生答案,对多种自动评分系统进行了评估。评估的方法从基于二元特征的逻辑回归,到使用大型语言模型(LLMs)嵌入进行训练的支持向量机(SVMs),再到GPT-4不等。我们发现多种有效的自动评分系统,其准确率大多在86%到88%之间,且各有优势。基于LLM嵌入训练的SVMs具有最高的准确率;使用GPT-4进行少量样本的代码补全只需很少的人工干预;结合多种自动评分系统针对特定维度的评分流程(我们称之为“3D自动评分系统”)可以提供更细致的反馈;而利用GPT-4生成代码并结合自动代码测试作为评分机制,虽然评分标准稍为宽松,但也能提高评估效率。在一门非专业性的Python入门课程中试用这些自动评分系统时,学生对所有评分系统的评价大致相同,但他们更认为基于GPT的评分系统和代码生成评分系统更具帮助性,其中代码生成评分系统最受学生欢迎。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号