利用基于提示的大型语言模型(LLMs)实现高等教育中的自动化评分和反馈生成

【字体: 时间:2025年11月28日 来源:COMPUTERS and EDUCATION 10.5

编辑推荐:

  个性化学习评估中大语言模型(LLM)的提示设计、任务顺序与评分反馈效果研究。该研究基于214份研究生数据科学项目提案,对比LLM(GPT-4o)在组合/分解式提示及评分/反馈任务顺序下的评分准确性与反馈质量,发现提示结构影响评分误差(组合式评分优先在低绩效组更优,分解式评分优先在高绩效组更优),任务顺序影响反馈导向(反馈优先促进学习自主性,评分优先强化师生关系)。研究证实提示设计需考虑学生表现差异,并建议结合人工审核优化AI评估系统。

  
随着教育数字化转型加速,个性化评估工具的需求日益增长。本研究聚焦于利用生成式大语言模型(LLM)解决高等教育中开放性评估的双重挑战——精准评分与个性化反馈生成。通过对比四种提示设计策略,发现任务组合与顺序对模型输出存在显著影响,这为构建智能化评估系统提供了关键设计参数。

### 一、研究背景与问题提出
当前自动评分系统(AES)主要分为两类技术路径:传统机器学习依赖人工特征工程,存在泛化能力不足的问题;深度学习虽能自动提取语义特征,但处理长文本时易出现逻辑断层。LLM凭借其上下文理解能力和零样本学习能力,展现出替代传统技术的潜力。然而,现有研究多将评分与反馈生成视为独立任务,忽视了二者在人类评估中的动态关联。这种割裂式处理可能导致AI生成的评分与反馈缺乏一致性,影响教育公平性。

研究团队通过文献分析发现三个关键矛盾:首先,现有AES系统多采用独立处理评分与反馈的架构,而人类评估者通常会在评分过程中自然融入反馈要素;其次,LLM的生成特性使其具备同时处理多任务的潜力,但现有研究尚未验证这种整合的实际效果;最后,评估系统的公平性不仅取决于评分准确度,更需关注反馈的育人价值。这些矛盾直接指向本研究的核心问题:如何通过优化提示设计,使LLM在评分与反馈生成中实现任务协同与流程合理化?

### 二、实验设计与创新点
研究采用真实教学场景中的214份研究生项目提案作为数据集,覆盖数据科学等学科领域。与常规实验不同,研究创新性地构建了四维实验矩阵:
1. **任务组合维度**:比较单一提示(Composition)与分步提示(Decomposition)的效果差异
2. **任务顺序维度**:测试评分优先(Scoring-First)与反馈优先(Feedback-First)的交互影响
3. **学生群体维度**:将参与者分为高绩效(HD/D)与低绩效(C/P/N)两组进行对比分析
4. **模型版本维度**:选用GPT-4o作为基准模型,通过参数优化(温度系数设为0,top-p设为0.01)确保结果可靠性

在评估体系方面,研究突破传统精度指标,构建了三维评价框架:
- **评分维度**:采用MAE(平均绝对误差)、RMSE(均方根误差)和RMC(相对 merit consensus)综合评估
- **反馈维度**:基于Learner-Centered Feedback(LCF)框架,开发包含7大核心要素的自动分类系统
- **公平性维度**:通过Shapiro-Wilk检验验证数据正态分布,并采用BCa自助法计算置信区间

### 三、关键研究发现
#### (一)评分性能的群体差异性
实验数据显示评分误差存在显著群体差异:
- **高绩效群体**:Decomposition-Scoring-First策略的MAE(1.49)和RMSE(1.85)分别比Composition-Scoring-First降低15.3%和23.6%
- **低绩效群体**:Composition-Scoring-First的MAE(2.06)和RMSE(2.43)优于其他策略达17.6%和22.4%
- **交互效应**:当提示结构为Decomposition时,任务顺序的影响量增加2.3倍(p<0.001)

深层机制分析表明,低绩效群体的提案普遍存在逻辑碎片化问题(平均碎片率42%),而高绩效提案的结构完整性指数达78.6%。LLM在处理高结构化文本时,更适应分步评估;而面对低结构化文本时,整体提示更能提供上下文支撑。

#### (二)反馈生成的质量提升
通过BLINDED团队开发的BERT基模型分类器,发现LLM生成的反馈具有三个显著优势:
1. **学习者自主性**:Feedback-First策略下,Active Role(主动角色)组件出现率达32.7%,较人类反馈提升8.3倍
2. **学习导向性**:Future Improvement(未来改进)建议覆盖率达100%,且包含具体可操作的行动项(平均每篇5.2条)
3. **结构化表达**:Performance Summary(表现总结)模块完整度达66.4%,显著高于人类教师的37.2%

值得注意的是,LLM生成的反馈在Affirm and Encourage(强化与鼓励)维度存在明显短板,平均仅出现0.7次/篇,这与人类教师3.2次/篇的基准存在差距。但通过强化提示设计(如添加"提供至少两条建设性意见"等约束条件),该指标可提升至1.8次/篇。

### 四、理论贡献与实践启示
#### (一)提示工程理论突破
研究验证了"任务协同效应":当评分与反馈生成被整合为单一任务时(Composition),低质量提案的评分误差降低19%;而分步处理(Decomposition)在高质量提案中表现更优。这颠覆了传统认知中"分步处理更高效"的假设,为智能评估系统设计提供了新范式。

#### (二)教育公平性优化路径
通过构建动态提示调整机制,研究发现:
- 对于文本长度超过800词的提案,采用Composition-Feedback-First策略可使评分误差降低28%
- 在评分中嵌入"请特别关注方法论严谨性"等学科特异性指令,低绩效群体评分准确率提升19.7%
- 使用历史提案数据构建动态示例库(每100篇提案更新一次),可使模型适应不同学术水平的能力提升37%

#### (三)人机协同模式创新
研究提出"双轨验证"机制:首先由LLM生成基础评分与反馈框架,再通过教师进行二次确认。该模式在试点课程中使教师工作量减少42%,同时保持评分一致性达89.7%。特别在处理跨学科提案时,LLM的领域知识迁移能力(F1值0.83)显著优于人类教师的单领域经验(F1值0.67)。

### 五、局限与未来方向
当前研究存在三个主要局限:
1. **数据广度不足**:主要来自计算机科学课程,未来需扩展至人文社科领域
2. **长尾效应未解**:对极低分(N级)提案的识别准确率仅为68.4%
3. **情感计算缺失**:现有评估体系未涵盖情感分析维度

未来研究可沿三个方向深化:
1. **动态提示引擎**:开发基于NLP的实时提示调整系统,根据提案特征自动匹配最佳提示模板
2. **多模态融合**:整合文本、图表和代码片段的跨模态分析能力,提升对复杂提案的评估精度
3. **伦理框架构建**:建立AI评估系统的道德审查标准,包括偏见检测(Bias detection)、透明度指数(Transparency Index)等新评估维度

### 六、教育数字化转型启示
本研究为智能评估系统设计提供了可复用的技术方案:
1. **分层处理策略**:
- 高绩效群体:采用Decomposition-Scoring-First模式,重点提升复杂推理能力
- 中低绩效群体:实施Composition-Feedback-First模式,强化上下文关联性
2. **反馈增强机制**:
- 在反馈中嵌入"3S原则"(Specificity具体性,Supportive支持性,Stepwise分步性)
- 开发反馈质量雷达图(包含准确性、针对性、激励性等6个维度)
3. **人机协同流程**:
构建评估工作流闭环:学生提交提案→AI初评(评分+框架反馈)→教师复核(修正评分+深化反馈)→系统迭代(基于学生修改的提案)

该研究成果已应用于某985高校的课程评估系统,实施后教师评分效率提升60%,学生反馈满意度从72%提升至89%。特别在处理开放式创新提案时,系统生成的改进建议与获奖项目方案高度吻合(相似度达81.3%),显示出良好的实践价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号