评估用于自动评分的人工智能模型:用简单的语言解释问题——面临的挑战与需要考虑的因素

《ACM Transactions on Interactive Intelligent Systems》:Evaluating AI models for Autograding Explain in Plain English Questions: Challenges and Considerations

【字体: 时间:2025年11月08日 来源:ACM Transactions on Interactive Intelligent Systems

编辑推荐:

  代码阅读能力评估研究采用多模型方法,包括基于大语言模型嵌入的SVM和GPT-4等。实验显示SVM准确率最高(86%-88%),GPT-4仅需少量人工干预,3D自动评分器能提供细粒度反馈。学生普遍认为GPT类评分器更友好,其中代码生成评分器最受青睐。

  

摘要

代码阅读能力在评估中一直未得到足够的重视,因为难以大规模地进行评估。先前的研究表明,代码阅读和代码编写是密切相关的技能;因此,能够评估和训练代码阅读能力可能对学生的学习至关重要。评估代码阅读能力的一种方法是使用“用简单语言解释代码”(Explain in Plain English, EiPE)问题,这类问题要求学生用自然语言描述一段代码的功能。以往的研究使用基于二元分类(正确/错误)的自动评分系统,并结合二元模型对学生答案进行评分,其效果与人工助教相当。我们利用来自17个EiPE问题的3,064份学生答案,对多种自动评分系统进行了评估。评估的方法从基于二元特征的逻辑回归,到使用大型语言模型(LLMs)嵌入进行训练的支持向量机(SVMs),再到GPT-4不等。我们发现多种有效的自动评分系统,其准确率大多在86%到88%之间,且各有优势。基于LLM嵌入训练的SVMs具有最高的准确率;使用GPT-4进行少量样本的代码补全只需很少的人工干预;结合多种自动评分系统针对特定维度的评分流程(我们称之为“3D自动评分系统”)可以提供更细致的反馈;而利用GPT-4生成代码并结合自动代码测试作为评分机制,虽然评分标准稍为宽松,但也能提高评估效率。在一门非专业性的Python入门课程中试用这些自动评分系统时,学生对所有评分系统的评价大致相同,但他们更认为基于GPT的评分系统和代码生成评分系统更具帮助性,其中代码生成评分系统最受学生欢迎。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号