《British Journal of Psychology》:A nonlinear association between chronic stress and instrumental reward learning under Pavlovian conflict: Behavioural and computational evidence
编辑推荐:
慢性应激(chronic stress)源于长期暴露于不可预测的挑战中,在日常生活里普遍存在,可能改变认知过程。然而,很少有人类研究实证检验慢性应激与奖励学习(reward learning)之间的关联,而后者对于在不确定环境中导航至关重要。本研究通过考察慢性
慢性应激(chronic stress)源于长期暴露于不可预测的挑战中,在日常生活里普遍存在,可能改变认知过程。然而,很少有人类研究实证检验慢性应激与奖励学习(reward learning)之间的关联,而后者对于在不确定环境中导航至关重要。本研究通过考察慢性应激是否与巴甫洛夫偏差(Pavlovian bias)对工具性奖励学习(instrumental reward learning)的影响相关联,填补了这一空白。共有111名健康年轻成年人参与研究,完成了一项正交化去/不去任务(orthogonalised go/no-go task)和一份自我报告的慢性应激测量。研究人员的慢性应激水平与巴甫洛夫冲突(Pavlovian-conflict)条件下的学习准确性呈现倒U形关系,尤其在奖励领域(reward domain)。组间分析支持了这一模式,中度应激组在奖励领域的巴甫洛夫冲突条件下表现最佳。计算建模(computational modelling)结果进一步揭示,与中度应激组相比,低应激组和高应激组表现出更大的奖励相关巴甫洛夫偏差,而高应激组表现出奖励敏感性(reward sensitivity)钝化。综合而言,这些发现表明慢性应激与奖励学习之间的关联可能是非线性的。中度慢性应激水平可能与特定奖励学习情境中相对较好的表现相关联。
**论文解读:慢性应激与奖励学习的非线性关联——行为与计算证据**
**研究背景与问题**
近年来,快速变化的环境对年轻成年人的心理健康造成显著压力,主要源于学业要求和职业挑战等应激源(Sapolsky, 2015)。长期暴露于不可预测或不可控制的挑战可导致慢性应激(chronic stress)。适应性奖励学习对于在不确定环境中导航至关重要,而奖励学习缺陷已在应激相关精神疾病(如焦虑症和创伤后应激障碍)中被报道(Letkiewicz et al., 2023; Pike & Robinson, 2022)。然而,直接考察慢性应激与奖励学习之间关系的研究相对较少(Schwabe et al., 2008; Soares et al., 2012)。奖励学习表现受巴甫洛夫偏差(Pavlovian bias)与工具性学习(instrumental learning)之间相互作用的影响(Balleine & O'Doherty, 2010; Guitart-Masip et al., 2014)。巴甫洛夫偏差指个体倾向于对奖励性结果做出行动、对厌恶刺激做出抑制的倾向(Algermissen et al., 2024; Guitart-Masip et al., 2014),而工具性学习则需要根据反馈学习刺激特异性动作-结果关联(Kim et al., 2023)。既往研究多关注急性应激(acute stress)对行为控制平衡的影响(Meier et al., 2022; Mkrtchian et al., 2017; Schwabe & Wolf, 2009),但慢性应激在巴甫洛夫偏差与工具性学习交互中的作用尚不明确。此外,慢性应激可能非线性地调节奖励敏感性和动机(Cabib & Puglisi-Allegra, 2012; Yi et al., 2025)。因此,研究人员采用正交化去/不去任务(orthogonalised go/no-go task)结合计算建模,系统考察慢性应激与奖励学习相关认知过程的关联。
**研究内容与结论**
研究人员招募了111名健康年轻成年人(64名女性,平均年龄20.90岁;47名男性,平均年龄20.45岁),所有参与者完成正交化去/不去任务和感知应激量表(Perceived Stress Scale, PSS)。任务包含四种条件:去获得奖励(go to win reward, GW)、不去获得奖励(no-go to win reward, NGW)、不失去避免惩罚(no-go to avoid punishment, NGA)、去避免惩罚(go to avoid punishment, GA);其中GW和NGA为巴甫洛夫一致(Pavlovian-congruent)条件,NGW和GA为巴甫洛夫冲突(Pavlovian-conflict)条件。行为数据通过层次回归分析,计算建模采用强化学习模型(Model 1-5),最佳模型(Model 5)包含7个自由参数:学习率(learning rate, ε)、去偏差(go bias, b)、奖励相关巴甫洛夫偏差(π
rew)、惩罚相关巴甫洛夫偏差(π
pun)、奖励敏感性(ρ
rew)、惩罚敏感性(ρ
pun)和不可约噪声(ξ)。模型拟合采用分层贝叶斯分析(Markov chain Monte Carlo, MCMC)。研究发现慢性应激水平与巴甫洛夫冲突条件下的学习准确性呈倒U形关系(β = -2.23, p = .008),且与奖励领域巴甫洛夫偏差指数呈U形关系(β = 2.09, p = .015)。组间分析显示,中度应激组在巴甫洛夫冲突条件下表现优于高应激组(p = .004),且奖励领域巴甫洛夫偏差低于高应激组(p = .004)。计算建模结果进一步表明,低应激组和高应激组在奖励领域巴甫洛夫偏差(π
rew)上均大于中度应激组(95% HDI不含零),高应激组的奖励敏感性(ρ
rew)低于中度应激组(95% HDI不含零)。相关性分析显示,π
rew与冲突条件准确性负相关(r = -0.63, p < .001),ρ
rew与冲突条件准确性正相关(r = 0.198, p = .037)。该研究发表在《British Journal of Psychology》。这些发现表明慢性应激与奖励学习之间的关联可能是非线性的,中度慢性应激可能有助于特定奖励学习情境中的表现。
**关键技术方法**
研究主要采用正交化去/不去任务(Guitart-Masip et al., 2012),通过独立操纵结果效价(奖励 vs. 惩罚)和动作要求(去 vs. 不去),分离巴甫洛夫一致和冲突条件下的学习表现。计算建模方面,应用强化学习模型(Model 5最佳),通过分层贝叶斯分析(MCMC算法)估计潜在认知参数(如学习率、巴甫洛夫偏差、奖励敏感性)。参与者招募来自中山大学周边社区,通过在线广告和社交媒体平台招募,最终纳入111名健康年轻成年人。应激水平使用感知应激量表(PSS)评估,并依据先前标准划分为低应激(PSS < 14)、中应激(PSS = 14-26)和高应激(PSS > 26)三组。
**研究结果**
(1)**人口学与行为结果**:111名参与者(64名女性),平均PSS评分18.80(SD = 6.48)。任务准确率:GW = 0.86, NGW = 0.49, NGA = 0.70, GA = 0.71。
(2)**慢性应激与学习表现的关系**:层次回归分析显示,PSS评分与巴甫洛夫冲突条件准确性呈显著二次(倒U形)关联(β = -2.23, p = .008),且与奖励领域巴甫洛夫偏差指数呈显著二次(U形)关联(β = 2.09, p = .015);一致条件及惩罚领域无显著线性或二次关联。
(3)**组间学习表现比较**:三因素混合方差分析(valence × congruence × group)显示显著三阶交互(F(2,108) = 3.24, p = .043, partial η2 = 0.057)。简单效应分析发现,中应激组在巴甫洛夫冲突条件下准确性显著高于高应激组(p = .004, 95% CI = [0.043, 0.287]),且奖励领域巴甫洛夫偏差指数显著低于高应激组(p = .004, 95% CI = [-0.621, -0.095])。
(4)**计算建模结果**:基于LOOIC,Model 5为三组最佳拟合模型。参数组间比较显示,低应激组和高应激组的奖励相关巴甫洛夫偏差(π
rew)均大于中应激组(95% HDI不含零);高应激组的奖励敏感性(ρ
rew)低于中应激组(95% HDI不含零)。其他参数(学习率、惩罚相关巴甫洛夫偏差、惩罚敏感性等)无显著组间差异。
(5)**敏感性分析**:采用替代分组方法(底部25%、中间50%、顶部25%)后,主要结果方向一致,但高应激组与中应激组在ρ
rew上的差异未达到统计可信水平。
(6)**相关性分析**:π
rew与巴甫洛夫冲突条件准确性负相关(r = -0.63, p < .001),与奖励领域巴甫洛夫偏差指数正相关(r = 0.73, p < .001)。ρ
rew与冲突条件准确性正相关(r = 0.198, p = .037),与奖励领域巴甫洛夫偏差指数负相关(r = -0.214, p = .024)。
**讨论与结论**
讨论部分指出,本研究发现慢性应激与奖励学习存在非线性关系,这与近期关于慢性应激与奖励处理(如努力意愿、神经响应)的非线性关联研究一致(Yi et al., 2024, 2025)。中应激组在巴甫洛夫冲突条件下表现更佳,可能源于适度的唤醒或内在动机促进了灵活的工具性控制,而低应激组表现较差可能与任务投入不足、依赖习惯性行为有关,高应激组则因奖励敏感性钝化(blunted reward sensitivity)损害了价值更新。值得注意的是,该效应仅出现在奖励领域,而非惩罚领域,可能因为实验中的损失操纵(金钱损失)厌恶程度不足,或高慢性应激个体在避免损失学习方面相对保留。研究局限性包括缺乏神经层面证据、横断面设计依赖自我报告应激、以及高应激组样本量较小(n=17)。未来研究应采用纵向设计或客观应激指标(如皮质醇),并引入更强烈的厌恶刺激以考察惩罚领域。结论部分总结:研究使用正交化去/不去任务和强化学习模型,发现慢性应激与奖励领域巴甫洛夫冲突条件下的学习表现呈非线性关系;计算建模表明低应激和高应激组更依赖巴甫洛夫偏差,高应激组还伴有奖励敏感性钝化。因此,中度慢性应激可能促进奖励性工具性学习,尤其在需要克服巴甫洛夫偏差的冲突情境下。