迈向可靠的生成式AI驱动的学习支持框架:减少幻觉现象并提升自我调节学习的质量
《COMPUTERS and EDUCATION》:Towards reliable generative AI-driven scaffolding: Reducing hallucinations and enhancing quality in self-regulated learning support
【字体:
大
中
小
】
时间:2025年10月11日
来源:COMPUTERS and EDUCATION 10.5
编辑推荐:
本文提出两种基于生成式人工智能(GenAI)的评估方法,以减少大语言模型(LLM)生成的自我调节学习(SRL)脚手架中的幻觉问题。首先,通过多智能体结构评估LLM生成的脚手架是否准确对齐SRL流程,结果显示多智能体配置(如GPT-4-Turbo)显著优于单智能体。其次,采用“LLM作为评判者”方法筛选高质量脚手架,发现GPT-4-Turbo能有效识别并排除幻觉内容,但存在位置偏差、自我增强偏差等问题。研究验证了GenAI在自动化评估和优化教育技术中的潜力,并指出了未来需解决的关键技术挑战。
在这项研究中,我们探讨了生成式人工智能(GenAI)在支持学生自我调节学习(SRL)中的应用,特别是在评估个性化学习支架(scaffolds)以减少生成内容中的幻觉(hallucinations)和提升整体质量方面。随着大规模语言模型(LLMs)技术的进步,它们在教育技术中的应用展现出巨大的潜力,能够自动为学生生成个性化的学习支架,以促进其自我调节学习能力。然而,LLMs在生成内容时可能会出现幻觉,这可能影响学习体验和伦理标准。因此,我们提出了两种基于GenAI的评估方法,旨在提升LLMs生成的个性化学习支架的质量和可靠性。
### 一、研究背景与意义
自我调节学习(SRL)是学生主动参与学习过程的核心能力之一,涉及监控、控制和调节认知、动机、行为和环境等各个方面,以满足任务需求并建立在已有知识的基础上。然而,许多学习者在SRL技能方面存在不足,这导致他们在学习过程中可能选择低效的学习策略,或在监控学习进度时出现偏差。为解决这一问题,研究人员越来越强调通过提供个性化学习支架来支持学习者的SRL过程。这些支架通常基于学习分析(LA)来构建,能够根据学习者在学习任务中的表现,生成针对特定SRL过程的反馈。
然而,传统的基于规则的学习支架系统存在明显的局限性。这些系统需要设计复杂的规则来分类学习者的条件,并生成相应的反馈,但它们高度依赖特定任务和情境,因此在任务或情境发生变化时,需要重新设计系统,这限制了其可扩展性。此外,由于这些系统无法实时评估大量个性化学习支架的质量,因此可能会产生低质量或有偏差的反馈,进而影响学习者的SRL过程。
生成式人工智能,尤其是LLMs,为这些问题提供了新的解决方案。LLMs可以实时生成个性化的反馈支架,而无需复杂的预编程。它们能够理解自然语言,并根据提示(prompt)生成内容,这使得个性化学习支架系统的构建更加灵活和可扩展。然而,LLMs在生成内容时也可能出现幻觉,即生成的内容可能与提示不符、缺乏准确性或存在逻辑矛盾。这不仅影响学习支架的质量,还可能对教育技术的安全性和可信度造成威胁。因此,如何在LLMs生成学习支架之前对其进行有效评估,是当前研究中的一个重要课题。
### 二、研究方法与创新点
为了评估LLMs生成的学习支架,我们提出了两种基于GenAI的方法:一种是用于评估支架可靠性的多智能体系统(multi-agent system),另一种是采用“LLM作为法官”(LLM-as-a-Judge)技术来评估支架质量并选择最合适的支架。这两种方法的创新点在于,它们能够在LLMs生成支架后,通过自动化评估过程,减少幻觉的影响,并提升支架的教育效果。
在可靠性评估方法中,我们构建了一个多智能体系统,该系统使用多个LLMs来分析支架是否准确地支持了提示中指定的SRL过程。我们比较了单智能体和多智能体结构的性能,并发现多智能体结构在评估支架是否准确地针对SRL过程方面表现更优,尤其是在使用先进的LLM(如GPT-4-Turbo)时,其可靠性评估结果几乎与人类专家的评估一致。此外,我们还发现,多智能体结构在提升支架生成的准确性方面表现优于传统的机器学习方法(如BERT模型),这表明LLMs在这一任务中的灵活性和准确性。
在质量评估方法中,我们采用了“LLM作为法官”的技术,即让一个LLM充当法官,比较多个支架并选择最合适的支架。这种方法通过设定评价标准,如相关性、清晰度、一致性等,能够自动筛选出高质量的支架,并减少幻觉的影响。我们测试了三种LLMs(GPT-4-Turbo、GPT-3.5-Turbo和Gemini-Pro)作为法官的性能,并发现GPT-4-Turbo在拒绝幻觉支架方面表现最佳,但仍然存在一定的偏差,如位置偏差(position bias)、自我增强偏差(self-enhancement bias)、顺序API调用偏差(sequential API call bias)和冗长偏差(verbosity bias)。
### 三、研究结果与分析
在可靠性评估方面,我们发现多智能体结构的LLMs在识别支架是否准确地支持SRL过程方面表现优于单智能体结构。其中,GPT-4-Turbo在多智能体结构中表现最佳,其与人类专家的评估一致性达到了0.808,而单智能体结构的LLMs一致性较低,平均为0.475。此外,我们还发现,LLMs在生成支架时,存在一定的不准确性和幻觉问题,如生成与提示无关的SRL过程或错误的SRL策略。这表明,尽管LLMs在生成个性化学习支架方面具有潜力,但它们在准确性和一致性方面仍有待改进。
在质量评估方面,我们发现GPT-4-Turbo作为法官时,能够有效地识别幻觉支架,并在比较不同支架时表现出较高的准确性。然而,其他LLMs(如GPT-3.5-Turbo和Gemini-Pro)在识别幻觉支架方面表现较差,其准确性分别为0.48和0.52,远低于GPT-4-Turbo。此外,我们还发现,LLMs在评估支架时,可能会受到位置偏差的影响,即更倾向于选择位于提示中第一位置的支架,而忽视了其他支架。为了减少这种偏差,我们采用了一种策略,即在评估时交换支架的位置,并选择一致性较高的结果作为最终评价。
此外,我们还发现,LLMs在评估支架时,可能会受到顺序API调用偏差的影响,即在连续调用API时,会受到前一次调用结果的影响。这种偏差可能影响评估的一致性,因此在设计评估系统时,需要考虑API调用的顺序对结果的影响。我们还发现,LLMs可能会倾向于生成更长的支架,即使这些支架在内容上并不比短支架更有帮助。这种冗长偏差可能影响支架的质量,因此需要通过设置字数限制或优化提示来减少这种偏差。
### 四、研究启示与未来方向
本研究的结果为GenAI在教育中的应用提供了重要的启示。首先,多智能体结构的LLMs在评估学习支架的可靠性方面表现出色,能够有效减少幻觉的影响,并提升支架的质量。因此,在构建GenAI驱动的学习支架系统时,可以考虑采用多智能体结构,以提高系统的可靠性和可扩展性。其次,尽管LLMs在质量评估方面表现出一定的潜力,但它们仍然存在偏差问题,如位置偏差、自我增强偏差、顺序API调用偏差和冗长偏差。因此,未来的研究需要探索如何减少这些偏差,例如通过优化提示、采用多模型评估或引入外部验证机制。
此外,本研究还强调了在教育中使用GenAI的重要性。GenAI能够实时生成个性化学习支架,这为教育技术的创新提供了新的方向。然而,由于LLMs在生成内容时可能存在的幻觉和偏差,因此在实际应用中需要引入评估机制,以确保生成的支架质量。这不仅有助于提升学习支架的有效性,还能增强学生对教育技术的信任感。
最后,本研究还指出了一些局限性。例如,当前的研究主要基于人工标注的数据集,而未考虑学习者和教育者的实际偏好。因此,未来的研究需要进一步验证LLMs的评估结果是否符合学习者和教育者的期望。此外,由于当前的评估方法依赖于特定的LLMs(如GPT-4-Turbo),因此在实际应用中可能面临隐私和数据控制的问题。未来的研究可以探索使用开源LLMs来构建评估系统,以提高系统的可访问性和长期可用性。
总的来说,本研究为GenAI在教育中的应用提供了新的思路和方法。通过构建多智能体结构和“LLM作为法官”方法,我们能够有效减少LLMs生成学习支架时的幻觉问题,并提升支架的质量。然而,LLMs在评估过程中仍然存在一定的偏差,因此需要进一步的研究来优化这些评估方法,以确保其在教育中的可靠性和公平性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号