提升学术评估:利用人工智能对学生的学术论文进行评分

《Teaching and Learning in Nursing》:Enhancing academic assessment: Leveraging AI for grading scholarly student papers

【字体: 时间:2026年06月09日 来源:Teaching and Learning in Nursing 1.7

编辑推荐:

  作者:安吉拉·C·基思(Angela C. Keith)、特蕾西·鲁格(Tracy Ruegg)、普罗米·罗伊(Promi Roy)、克里斯蒂安·格林(Christian Greene)研究机构:美国乔治亚州肯尼索州肯尼索州立大学(Kennesaw State Universit

  
作者:安吉拉·C·基思(Angela C. Keith)、特蕾西·鲁格(Tracy Ruegg)、普罗米·罗伊(Promi Roy)、克里斯蒂安·格林(Christian Greene)
研究机构:美国乔治亚州肯尼索州肯尼索州立大学(Kennesaw State University, Kennesaw, GA, USA)

摘要

背景

随着护理教师工作负担的增加和师资短缺问题的持续存在,人们对人工智能(AI)辅助评分的兴趣日益浓厚。然而,目前仍缺乏证据表明大型语言模型平台是否能够以足够的可靠性对学术性护理写作进行评估,从而用于高风险的评估任务。

研究目的

本研究旨在探讨基于大型语言模型的AI平台在生成与评分标准一致的本科护理论文分数方面的能力,以及这些分数与教师评分结果的一致性。

研究设计

本研究采用观察性方法进行比较分析。

研究方法

26篇已去标识化的护理学士学位论文由1位经验丰富的教师和3个AI平台(ChatGPT、Gemini和Grammarly)使用标准化评分标准进行评分。分析方法包括描述性统计、Friedman秩和检验、Bonferroni校正的Wilcoxon符号秩检验、Spearman等级相关性和Bland–Altman一致性分析。

研究结果

各评分者给出的平均分数大致相似;然而,没有任何AI平台与教师的评分结果表现出显著的相关性。Bland–Altman一致性分析显示所有平台在个体论文层面存在较大差异。此外,还存在计算错误、评分行为不一致以及对表现较差的论文过于宽容等问题。

结论

尽管AI平台可以提高评分效率,但它们与教师评分结果的一致性尚不足以独立用于高风险的护理评估。因此,在护理教育中应用AI辅助评分时应保持谨慎,并在教师监督下进行,同时需要进一步验证其有效性。

研究片段

背景与意义

在护理教育领域,对技术支持的迫切需求尤为明显。全球医疗系统正面临由人口老龄化及慢性病发病率上升导致的护理人员严重短缺问题(美国卫生资源和服务管理局[HRSA],2025年)。然而,扩大护理人才队伍的努力受到护理教师短缺的制约(美国护理学院协会[AACN],2024年)。招聘和

研究设计

本研究采用观察性方法进行比较分析,评估了26篇已去标识化的护理学士学位论文的AI评分结果与教师评分结果之间的一致性。每篇论文分别得到了1位教师和3个AI平台的评分。

研究样本

研究样本来自一门高级护理学士学位(BSN)课程,共选取了26篇专业水平的论文。这些论文已去标识化,以去除学生信息,确保数据的代表性

描述性统计

表1展示了4位评分者对26篇已去标识化论文的评分结果。各评分者的平均分数大致相当;但不同AI平台之间的分数分布存在差异。Gemini AI给出的分数范围最窄,而ChatGPT 4.0给出的分数范围最广。

初步的分数分布分析表明,评分者的评分结果不符合正态性和方差同质性的假设。

讨论

本研究发现AI评分与教师评分在整体上存在一致性,但在个别论文层面存在较大差异。这一现象与其他研究结果相似,这些研究也指出AI评分工具在整体上具有较高一致性,但在具体论文层面存在较大变异性(Flodén, 2025; Güvendir et al., 2026; Heinrich et al., 2025; Li et al., 2025)。这些发现表明,尽管AI评分工具具有潜在的效率优势,但仍存在重要局限性(Almegren et al., 2025)。
研究局限性
生成式AI系统(包括大型语言模型LLM)会随时间不断发展。因此,本研究的结果仅反映了数据收集期间(2025年10月至12月)所评估的具体AI平台和版本的表现。由于模型输出可能在更新或其他系统修改后发生变化,这些结果可能不适用于同一平台的后续版本(Chen et al., 2024)。LLM本质上是随机的,这意味着相同的输入可能会产生不同的输出。
研究意义与未来方向
本研究的意义不仅限于护理领域,还可能扩展到高等教育乃至更广泛的领域。随着教育机构寻求应对教学需求增加的解决方案,基于AI的评估方法具有吸引力。然而,不能为了方便而牺牲评估的有效性、公平性、透明度和可重复性。在获得AI评分与专家人工评分在个体学生层面达成一致性的实证证据之前,应谨慎使用AI辅助评分。
结论
本研究探讨了AI评分结果与教师评分结果在护理教师工作负担背景下的匹配程度和一致性。研究发现,AI评分结果仍存在较大差异,甚至在简单的任务(如分数计算)中也会出现错误。定量结果进一步表明,目前AI尚无法替代专家教师的判断。尽管存在这些局限性,AI仍具有潜在价值。
资金来源
本研究未获得公共部门、商业部门或非营利组织的任何资助。
伦理审批
本研究已获得肯尼索州立大学机构审查委员会的批准,并被授予豁免资格(协议编号:25-03-2389: IRB-FY25-550)。为保护学生隐私和数据安全,所有学生论文在分析前均已完全去标识化。原始数据仅限于研究团队访问,所有信息均按照大学规定的保护协议进行存储,以确保参与者匿名性和数据安全。
关于写作过程中使用生成式AI和AI辅助技术的声明
在撰写本手稿的过程中,作者仅将ChatGPT 5.0和Microsoft Copilot用于编辑目的,包括纠正语法错误和提升语言表达的清晰度。整个研究和手稿的撰写工作均由主要研究者和研究团队完成。所有AI技术的应用均处于人类监督之下,作者对所有输出内容进行了审查和必要的修改,并对此承担全部责任。
作者贡献声明
安吉拉·C·基思(Angela C. Keith):负责撰写初稿、监督、软件选择、资源协调、研究方法设计、数据整理及概念构建。特蕾西·鲁格(Tracy Ruegg):负责审稿与编辑工作及资源协调。普罗米·罗伊(Promi Roy):负责研究方法设计、正式数据分析及数据整理。克里斯蒂安·格林(Christian Greene):负责数据整理工作。

作者声明不存在可能影响本研究结果的已知个人利益冲突或财务利益关系。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号