在给编程作业打分时,人类的评分一致性如何?

《ACM Transactions on Computing Education》:How Consistent Are Humans When Grading Programming Assignments?

【字体: 时间:2025年11月07日 来源:ACM Transactions on Computing Education

编辑推荐:

  本研究通过让28名评估者对40个编程作业进行评分,发现评估者在正确性、代码优雅性、可读性和文档方面的一致性极低,Krippendorff's Alpha系数分别为0.2、0.1、0.1和0.1。个体评估者在主观评分方面自我一致性较高,但正确性评分差异较大。研究指出,评估不一致可能影响学生学习效果和未来发展,需改进评估方法。

  随着计算机科学课程规模的扩大,确保高质量且一致的评分成为教育机构面临的重要挑战。学生提交的编程作业不仅影响他们的学术进展,还可能对未来的就业前景产生深远影响。尽管一些小型班级通常由单一评估者(如课程负责人)进行评分,但大型班级往往需要多个评估者,如助教,来确保在有限时间内提供有意义的反馈。然而,这种方法增加了评分不一致的风险,尤其是在主观性较强的评估要素,如代码质量方面。为了探究人类评分的一致性,我们设计了一项研究,邀请28名参与者对40份CS1课程的Java编程作业进行评分,其中包括对正确性、代码优雅性、可读性和文档的评分,并将这40份作业分为两批,每批20份。此外,我们还重复了其中一份作业以分析单个评估者的一致性。

本研究通过两种方式评估评分一致性:一是评估多个评估者之间的评分一致性,二是评估单个评估者在重复评分时的一致性。为了测量多个评估者之间的一致性,我们使用了Krippendorff的α系数,这是一种衡量评分者之间一致性的统计方法,适用于多种评分类型,包括等级评分。Krippendorff的α系数越接近1,表示评分者之间的一致性越高,而越接近0则表示一致性越低。我们发现,整体评分一致性非常低,平均α系数仅为0.2,远低于通常认为可以得出初步结论的0.667阈值。这表明,在评估编程作业时,即使是使用了评分标准,评估者之间也难以达成一致。

对于单个评估者的一致性,我们通过重复一份作业并将其分配给不同的评估者来评估。结果显示,只有少数评估者在重复评分时能够保持一致。平均而言,评估者在重复评分时,正确性评分的差异为1.79,而代码优雅性、可读性和文档评分的差异则低于1.6。这表明,尽管评分标准提供了指导,评估者在不同时间点对同一作业的评分仍然存在显著差异。

评分不一致的现象可能由多种因素导致。首先,评分标准的定义可能不够明确,尤其是在涉及主观性较强的评估要素时。例如,代码优雅性、可读性和文档质量的评分标准可能需要更详细的说明,以减少不同评估者之间的解释差异。其次,评估者之间的经验和训练水平可能影响评分的一致性。尽管我们选择了有编程经验的评估者,但评分经验的缺乏仍然是导致评分不一致的一个重要因素。此外,评估者在评分时的心理状态、时间安排以及对评分标准的理解程度也可能影响评分结果。

本研究还发现,即使在使用了评分标准的情况下,评估者之间仍然存在显著的评分差异。这表明,仅依赖评分标准并不能完全解决评分不一致的问题。因此,我们需要进一步探索其他方法,如评估者培训、替代评分实践或结合自动化评分工具,以提高评分的一致性。此外,评分过程中的环境因素,如评分时的疲劳程度或时间压力,也可能影响评分的一致性。

尽管本研究的样本量有限,仅涵盖了一所大学的CS1课程,但其结果对计算机科学教育具有普遍意义。研究结果表明,评分是一门复杂且直观的活动,即使是经验丰富的评估者也可能在评分时出现不一致。因此,我们需要重新思考如何设计评分标准,以在保持作业开放性的同时,提高评分的一致性。此外,还需要进一步研究如何通过培训和实践来提高评估者的一致性,尤其是在处理主观性较强的评估要素时。

本研究的一个重要贡献是创建了一个公开可用的编程作业数据集——Menagerie。该数据集包含真实的学生提交作业、评分标准以及评估者的评分和反馈,可以为未来的研究提供宝贵的资源。通过分析这些数据,我们可以更好地理解评分不一致的原因,并探索改进评分一致性的方法。此外,本研究还强调了评分过程中的潜在问题,如评分标准的模糊性、评估者培训的不足以及评分环境的影响,这些都需要进一步的研究和实践来解决。

在教育领域,评分一致性是一个长期存在的问题。许多研究表明,即使使用了评分标准,评估者之间仍然存在显著的评分差异。例如,一些研究发现,评估者在评分时可能受到个人偏好、评分经验以及评分环境的影响。因此,为了提高评分的一致性,教育机构需要采取多种措施,如提供更详细的评分标准、进行评估者培训以及引入自动化评分工具。这些措施不仅可以提高评分的一致性,还可以减少评分过程中的主观性,从而更公平地评估学生的学习成果。

总之,本研究揭示了人类评分在编程作业评估中的不一致性问题。评分标准虽然提供了评分的指导,但在实际应用中仍然存在显著的差异。为了提高评分的一致性,我们需要进一步探索评分标准的设计、评估者的培训以及替代评分方法的应用。这些研究和实践将有助于确保评分的公平性和一致性,从而更好地支持学生的学习和未来发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号