在给编程作业打分时，人类的评分一致性如何？

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Computing Education》：How Consistent Are Humans When Grading Programming Assignments?

【字体：大中小】 时间：2025年11月07日 来源：ACM Transactions on Computing Education

编辑推荐：

　　本研究通过让28名评估者对40个编程作业进行评分，发现评估者在正确性、代码优雅性、可读性和文档方面的一致性极低，Krippendorff's Alpha系数分别为0.2、0.1、0.1和0.1。个体评估者在主观评分方面自我一致性较高，但正确性评分差异较大。研究指出，评估不一致可能影响学生学习效果和未来发展，需改进评估方法。

　　随着计算机科学课程规模的扩大，确保高质量且一致的评分成为教育机构面临的重要挑战。学生提交的编程作业不仅影响他们的学术进展，还可能对未来的就业前景产生深远影响。尽管一些小型班级通常由单一评估者（如课程负责人）进行评分，但大型班级往往需要多个评估者，如助教，来确保在有限时间内提供有意义的反馈。然而，这种方法增加了评分不一致的风险，尤其是在主观性较强的评估要素，如代码质量方面。为了探究人类评分的一致性，我们设计了一项研究，邀请28名参与者对40份CS1课程的Java编程作业进行评分，其中包括对正确性、代码优雅性、可读性和文档的评分，并将这40份作业分为两批，每批20份。此外，我们还重复了其中一份作业以分析单个评估者的一致性。

本研究通过两种方式评估评分一致性：一是评估多个评估者之间的评分一致性，二是评估单个评估者在重复评分时的一致性。为了测量多个评估者之间的一致性，我们使用了Krippendorff的α系数，这是一种衡量评分者之间一致性的统计方法，适用于多种评分类型，包括等级评分。Krippendorff的α系数越接近1，表示评分者之间的一致性越高，而越接近0则表示一致性越低。我们发现，整体评分一致性非常低，平均α系数仅为0.2，远低于通常认为可以得出初步结论的0.667阈值。这表明，在评估编程作业时，即使是使用了评分标准，评估者之间也难以达成一致。

对于单个评估者的一致性，我们通过重复一份作业并将其分配给不同的评估者来评估。结果显示，只有少数评估者在重复评分时能够保持一致。平均而言，评估者在重复评分时，正确性评分的差异为1.79，而代码优雅性、可读性和文档评分的差异则低于1.6。这表明，尽管评分标准提供了指导，评估者在不同时间点对同一作业的评分仍然存在显著差异。

评分不一致的现象可能由多种因素导致。首先，评分标准的定义可能不够明确，尤其是在涉及主观性较强的评估要素时。例如，代码优雅性、可读性和文档质量的评分标准可能需要更详细的说明，以减少不同评估者之间的解释差异。其次，评估者之间的经验和训练水平可能影响评分的一致性。尽管我们选择了有编程经验的评估者，但评分经验的缺乏仍然是导致评分不一致的一个重要因素。此外，评估者在评分时的心理状态、时间安排以及对评分标准的理解程度也可能影响评分结果。

本研究还发现，即使在使用了评分标准的情况下，评估者之间仍然存在显著的评分差异。这表明，仅依赖评分标准并不能完全解决评分不一致的问题。因此，我们需要进一步探索其他方法，如评估者培训、替代评分实践或结合自动化评分工具，以提高评分的一致性。此外，评分过程中的环境因素，如评分时的疲劳程度或时间压力，也可能影响评分的一致性。

尽管本研究的样本量有限，仅涵盖了一所大学的CS1课程，但其结果对计算机科学教育具有普遍意义。研究结果表明，评分是一门复杂且直观的活动，即使是经验丰富的评估者也可能在评分时出现不一致。因此，我们需要重新思考如何设计评分标准，以在保持作业开放性的同时，提高评分的一致性。此外，还需要进一步研究如何通过培训和实践来提高评估者的一致性，尤其是在处理主观性较强的评估要素时。

本研究的一个重要贡献是创建了一个公开可用的编程作业数据集——Menagerie。该数据集包含真实的学生提交作业、评分标准以及评估者的评分和反馈，可以为未来的研究提供宝贵的资源。通过分析这些数据，我们可以更好地理解评分不一致的原因，并探索改进评分一致性的方法。此外，本研究还强调了评分过程中的潜在问题，如评分标准的模糊性、评估者培训的不足以及评分环境的影响，这些都需要进一步的研究和实践来解决。

在教育领域，评分一致性是一个长期存在的问题。许多研究表明，即使使用了评分标准，评估者之间仍然存在显著的评分差异。例如，一些研究发现，评估者在评分时可能受到个人偏好、评分经验以及评分环境的影响。因此，为了提高评分的一致性，教育机构需要采取多种措施，如提供更详细的评分标准、进行评估者培训以及引入自动化评分工具。这些措施不仅可以提高评分的一致性，还可以减少评分过程中的主观性，从而更公平地评估学生的学习成果。

总之，本研究揭示了人类评分在编程作业评估中的不一致性问题。评分标准虽然提供了评分的指导，但在实际应用中仍然存在显著的差异。为了提高评分的一致性，我们需要进一步探索评分标准的设计、评估者的培训以及替代评分方法的应用。这些研究和实践将有助于确保评分的公平性和一致性，从而更好地支持学生的学习和未来发展。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号