编辑推荐:
测试比学习更能提高记忆力。这种效应的起源尚不清楚。基于三个实验和计算模型,本研究提供了预测(基于错误的)学习支持测试效果的证据。
探究测试效应的本质:基于预测学习的新视角
根特大学实验心理学系的研究人员 Haopeng Chen、Cathy Hauspie 等人在Communications Psychology期刊上发表了题为 “Predictive learning as the basis of the testing effect” 的论文。该研究通过结合行为建模与实验,深入探究测试效应的潜在机制,为理解学习过程提供了新的理论依据,在教育领域具有重要的应用价值,有助于优化教学方法和提升学习效果。
一、研究背景
在学习与记忆研究中,测试效应是一项关键发现,即测试相较于单纯学习,更能有效提升学习或记忆保持效果。传统上,测试主要被视为衡量学习成果的评估工具,但自 20 世纪初以来的研究表明,它对改善陈述性记忆起着重要作用。此后,众多采用重复学习和测试范式的研究进一步证实了测试在提升陈述性记忆方面的优势。尽管测试效应在文献中已得到充分验证,且对教育实践具有重要意义,但其背后的本质机制仍不明确。
针对测试效应的解释有多种,包括增加检索努力、语义 elaboration、测试时的反馈等。近年来,测试效应开始与生物和人工神经网络中的学习原则相关联,其中赫布学习和预测学习备受关注。赫布学习认为学习发生于同时激活的表征之间,且测试中的积极反馈可作为奖励信号,增强神经元之间的连接,这或许能解释测试效应。预测学习则基于人工神经网络(以及假设中的生物神经网络)通过最小化预测与反馈之间的误差进行学习的原理,先前研究显示其在程序性记忆和陈述性记忆中均发挥关键作用。有理论框架提出,测试效应可能源于预测学习的益处,在测试过程中,人们对答案的预测与后续反馈之间的差异会引发预测学习,进而产生记忆优势。不过,赫布学习和预测学习对测试效应的起源解释不同,前者认为测试效应源于积极反馈,只有在测试后给予积极反馈才会比单纯学习更有效;后者则将其归因于预测误差,且这种误差在正确和错误测试中均可能出现。
二、研究材料与方法
(一)模型架构
研究人员开发了一种联想记忆神经网络,输入层包含 90 个英语单元,输出层包含 360 个斯瓦希里语单元,每个单元代表一个英语或斯瓦希里语单词。该模型的主要任务是学习英语单词与其对应的斯瓦希里语翻译之间的连接。在初始化连接后,模型会接受测试(从四个选项中选择答案)或学习试验(只能选择正确答案),并执行赫布学习、预测学习或两者同时进行,以更新连接,随后进行识别任务。赫布学习会强化活跃的英语和斯瓦希里语单元之间的连接,而预测学习则由预测误差驱动。在本研究中,默认采用奖励调制的赫布学习模型,同时也将无奖励的赫布学习作为额外模型纳入研究,以全面探索赫布学习对测试效应的解释力。
(二)人类数据收集
研究通过一项任务在三个实验中收集人类数据,该任务尽可能使测试和学习程序保持一致,均呈现四个选项,并在实验 1 和 2 中提供反馈。研究通过在线实验平台 Prolific 招募参与者,实验 1 招募了 80 名(平均年龄 30.35 岁,标准差 6.07,年龄范围 18 - 41 岁,37 名女性,43 名男性),实验 2 招募了 81 名(平均年龄 30.98 岁,标准差 5.44,年龄范围 19 - 40 岁,40 名女性,41 名男性),实验 3 招募了 62 名(平均年龄 29.97 岁,标准差 6.02,年龄范围 18 - 40 岁,24 名女性,38 名男性)。所有参与者均为英语母语者,在提供知情同意后参与实验,且该研究符合根特大学心理学与教育科学学院的一般伦理协议。
实验程序主要包括以下几个阶段:
- 初始学习阶段:参与者需学习 90 对英语 - 斯瓦希里语单词,单词对以伪随机顺序在屏幕上依次显示 3 秒,展示时间较短,以确保大部分学习发生在后续正式任务中。
- 筛选测试阶段:呈现一个英语单词和四个可能的斯瓦希里语翻译,参与者需从四个选项中选择正确的翻译,并在选择后对自己的选择进行 0 - 4 分的信心评级,该阶段主要用于测量参与者对单个单词对的学习强度,数据处理时会删除正确的单词对,以过滤初始学习的影响。
- 测试或学习阶段:此阶段通过操纵参与者可选择的选项数量来区分测试和学习条件。学习试验中,仅正确答案被框选,参与者可直接获得正确答案;测试试验中,四个选项均被框选,参与者需预测答案。在两种条件下,参与者回答后、反馈前都要对答案的信心进行 0 - 4 分的评级,实验 1 和 2 会提供反馈(显示 “正确” 或 “错误” 以及正确答案),实验 3 则不提供反馈。
- 识别阶段:包括两个识别阶段,用于测量最终记忆表现。为减少随机选择对结果的影响,只有在两个识别阶段都正确识别的单词对才被视为正确。实验 1 和 3 的参与者在完成前一阶段后立即进行这两个识别阶段,实验 2 的参与者则在 24 小时后进行,且在实验 1 和 3 的两个识别阶段前会安排 10 分钟的侧翼任务作为干扰。
(三)人类数据处理
研究对参与者数据进行了筛选处理,实验 1 中,因技术问题丢失 4 名参与者的数据,10 名参与者的识别准确率未显著高于随机水平(平均准确率低于 34%),最终保留 66 名参与者的数据;实验 2 中,15 名参与者识别准确率不高于随机水平,1 名参与者在三天后完成识别阶段,2 名知晓斯瓦希里语,2 名曾参与过相关实验,最终保留 61 名参与者的数据;实验 3 中,20 名参与者识别准确率不高于随机水平,最终保留 42 名参与者的数据。不过,即使不剔除表现不佳的参与者,研究结果基本不变。
正式分析使用 R 软件中的广义线性混合效应模型(GLMM),假设数据分布为正态,但未进行正式检验。模型中纳入了所有参与者内变量(测试与学习、反馈效价和信心)的随机斜率以及参与者的随机截距,将测试与学习(测试为 1,学习为 0)、反馈效价和信心作为预测变量,所有自变量均进行了均值中心化处理。因变量最终识别得分设定为:在两个识别阶段都正确识别为 1 分,仅在一个阶段正确识别为 0.5 分,两个阶段都未正确识别为 0 分。同时,还使用了二元方法进行分析,两种编码策略结果一致,论文主要呈现第一种方法的结果。此外,通过等效性检验(Two One - Sided Tests;TOST)确定标准化回归系数的零效应是否表明不存在有意义的差异,等效界限设定为 -0.1 和 0.1。
(四)模型拟合
由于实验 3 未实施反馈,模型仅对实验 1 和 2 的数据进行拟合。在实施赫布学习和预测学习之前,模型通过参与者在阶段 2 和阶段 3 的选择和信心评级来总结阶段 1 的初始学习,以此初始化权重。在学习条件下,参与者直接获得正确答案,无法表达内部信心,因此用测试条件下的平均信心评级替代。研究构建了基于初始学习、赫布学习和预测学习不同组合的 7 种可能模型,通过优化每个参与者在阶段 4 和阶段 5 的数据的对数似然函数来拟合模型参数,允许参数 α 和 β 在 0 - 1 之间取值,参数 k 和 b 在 0 - 10 之间取值,并通过特定的函数转换对参数进行处理。
(五)模型评价与比较
采用加权赤池信息准则(wAIC)对模型拟合效果进行评价和比较。首先计算赤池信息准则(AIC),公式为 AIC = 2×k - 2×LL(其中 LL 为对数似然函数,k 为参数数量);然后计算每个模型的 ΔAICm,公式为 ΔAICm = AICm - min (AIC);最后计算 wAICm,公式为 wAICm = e^(-0.5ΔAICm) / Σe^(-0.5ΔAICw),wAIC 值越高表示模型拟合效果越好。
三、研究结果
(一)行为模式
研究主要关注阶段 3 的学习,因此删除了阶段 2 中的正确单词对,以过滤阶段 1 的极端初始学习影响。正式分析表明,反馈与测试 - 学习之间的交互作用显著,这意味着测试效应在有反馈和无反馈的实验中存在差异。具体而言,实验 1 和 2 中有反馈时,测试效应显著;实验 3 中无反馈时,测试效应不显著,这表明反馈对于引发测试效应至关重要。
进一步分析发现,反馈与测试成功(正确与错误)之间的交互作用显著,学习从负面反馈中获得的效果超过正面反馈,突出了负面反馈在测试效应中的关键作用。虽然负面反馈后的最终识别准确率未超过学习后的准确率,但这主要是由于初始学习较弱导致的。实际上,相对于适当的基线,带有负面反馈的错误测试比单纯学习更有效。
(二)模型拟合
- 模型比较:通过 wAIC 对模型进行比较,实验 1 中拟合效果最佳的是包含初始学习、赫布学习和预测学习的完整模型(模型 7),模型 5(仅包含初始和预测学习)次之;实验 2 中拟合效果最佳的是包含初始学习和预测学习的模型 5,模型 7 次之。
- 模型模拟:模拟结果显示,赫布学习增强了学习和正面反馈测试后的识别效果,而预测学习则使所有测试(无论反馈正负)后的识别均受益。只有包含初始学习和预测学习的模型(模型 5 和 7)能够在定性和定量上复制人类行为模式,对于测试效应而言,预测学习至关重要,仅包含初始学习和 / 或赫布学习而无预测学习的模型无法重现测试效应。
- 预测测试效应的参数:研究发现,只有预测学习(模型 5)的学习率能够预测个体层面的测试效应,而赫布学习(模型 4)的学习率则不能。
- 预测学习的纯贡献:通过利用模型 5 的最优参数进行进一步模拟,量化了预测学习的贡献。结果表明,预测学习在正确和错误测试中均会发生,但在学习条件中不存在,且在错误测试中的预测学习甚至比正确测试中更强。
- 测试赫布学习的极限:为探究基于赫布学习的测试效应的可能性,研究进行了四项进一步探索,包括系统参数探索、研究无奖励成分的赫布学习、调整学习条件下的奖励成分以及开发新的赫布学习模型。结果表明,这些方法均无法产生基于赫布学习的测试效应。
四、研究结论与讨论
本研究通过多个操纵赫布学习和预测学习的神经网络,结合人类实验数据,深入探究了测试效应的本质。研究结果支持了预测学习假设,即所有测试,无论是否有奖励,都比单纯学习更能促进学习,且神经网络只有在纳入预测学习时才能模拟人类数据中观察到的测试效应,预测学习对有奖励和无奖励的测试均有贡献。而对赫布学习的深入探索表明,其无法解释测试效应。
预测学习在计算上比赫布学习更强大,在解释人类学习(测试效应)方面也更具实证合理性。本研究模型与 Liu 等人(2021)提出的基于预测学习解释测试效应的 TEACH 框架相互补充。本研究模型能够拟合人类数据,清晰区分初始学习、赫布学习和预测学习的贡献;而 TEACH 模型在神经生物学方面更为详细,但未拟合数据,难以区分人类数据中的不同学习成分。
此外,本研究模型有潜力结合 TEACH 模型的一些观点,解释无反馈情况下的测试效应。例如,TEACH 模型中目标的海马体表征可作为内部(或隐式)反馈,人们在测试中可产生内部反馈,进而产生时间预测误差,使无外部反馈时的(时间)预测学习成为可能,这或许能解释为什么在无外部反馈的测试中,良好的检索表现对测试效应很重要。
与其他解释测试效应的理论相比,基于预测学习的框架具有独特优势。它能够整合其他理论的多个方面,同时解释一些现有理论无法解释的现象。例如,预测学习可以解释为什么弱关联单词对和困难测试能被更好地记忆,以及反馈在后续回忆中的关键作用。此外,该框架还能对测试效应和陈述性记忆进行神经学预测,为未来的神经学研究提供方向,如探索多巴胺驱动的学习与测试效应之间的关系,以及海马体与皮层区域之间的相互作用在测试效应中的中介作用。
然而,本研究也存在一定局限性。研究采用的是基于识别的记忆任务,未来研究可在基于回忆的任务中进行验证;实验 3 中无反馈的测试效应不显著,可能与采用即时最终识别有关,这一点需要进一步研究;虽然通过删除阶段 2 中的正确或高信心单词对来减少初始学习的影响,但无法完全消除,不过不同的数据过滤策略得到了相似的结果,保证了研究结果的稳健性。
综上所述,本研究为测试效应的研究提供了新的视角,证实了预测学习是测试效应的基础,对理解学习过程和优化教育实践具有重要意义,同时也为未来的研究指明了方向。