
-
生物通官微
陪你抓住生命科技
跳动的脉搏
社会不平等如何重塑人类的奖赏学习机制:基于强化学习模型的社会认知神经科学研究
【字体: 大 中 小 】 时间:2025年08月18日 来源:Communications Psychology
编辑推荐:
本研究揭示了社会不平等对奖赏学习的深远影响:当奖励分配不均时,学习效率显著降低,且社会目标的群体身份通过温暖度(warmth)和能力(competence)感知进一步调节学习过程。研究人员通过三个改进的Collins-Frank强化学习任务(RL),结合计算建模(SPRL/IRL模型),发现不利不平等条件下学习率(α)降低23%,且在社会认知负荷降低时,刻板印象对学习的调节作用增强3.8倍。该成果为理解社会因素如何重塑基础学习机制提供了计算神经科学证据,发表于《Communications Psychology》。
在人类社会的日常互动中,奖励分配不平等现象无处不在——从职场薪酬差异到教育资源分配。传统强化学习理论(Reinforcement Learning, RL)认为学习仅取决于客观奖励大小,但宾夕法尼亚大学(University of Pennsylvania)的Huang Ham和Adrianna C. Jenkins团队在《Communications Psychology》发表的研究颠覆了这一认知。他们发现,当人们需要与不同社会群体成员分享奖励时,不仅分配比例影响学习效率,对方的职业身份所激活的刻板印象也会重塑整个学习过程。
研究采用改进的Collins-Frank范式,通过三个精巧的实验设计:研究1保持总奖励恒定(n=94),研究2固定自我所得(n=91),研究3降低认知负荷(n=95)。参与者需学习图像-按键的奖赏映射关系,每次奖励按特定比例分配给自己和代表不同职业的"社会目标"(如护士、政客)。计算建模显示,标准Q学习模型(Q-learning)必须整合不平等权重(γ)和社会感知参数(γw/γc)才能解释数据,最佳拟合的SPRL模型(WAIC=-312.7)显示:当获得份额低于50%时,学习率下降0.23(95%CI[0.18,0.28]),且目标的低温暖度评分使该效应放大1.4倍。
关键方法:1) 改进的强化学习任务含8个独立模块,每个模块关联特定职业目标;2) 计算建模比较基线RL、自私模型、不平等加权模型(IRL)和社会感知加权模型(SPRL);3) 分层贝叶斯参数估计(α,β,φ);4) 事后收集对8类职业的温暖/能力评分。
社会不平等损害学习效率:在不利不平等条件(自获<50%)下,参与者选择熵值显著增高(U=784,p=0.021),表明决策更随机。模型拟合显示其学习率降低19.3%(t(93)=5.62,p<0.001),且该差异随学习进程扩大(迭代×不平等交互作用b=0.004,χ2=86.25)。
刻板印象的调节作用:当认知负荷降低时(研究3),目标职业的高温暖度使学习效率提升42%(b=0.042,p<0.001),而高能力评分仅提升31%(b=0.031,p<0.001)。政客等低温暖职业引发的学习障碍比护士高68%。
动态学习机制:不平等效应从第4次刺激呈现开始显现(t(93)=3.54,p<0.001),至第12次时模型差异达峰值(ΔWAIC=7.3)。SPRL模型成功预测了这种随时间增强的模式(β=0.12,95%CI[0.09,0.15])。
这项研究首次在计算层面证明:社会不平等不仅改变决策偏好,更会重塑基础学习机制本身。其建立的SPRL框架为理解刻板印象如何"写入"学习过程提供了量化工具,对教育公平、组织管理等场景具有启示意义。当人们必须从不利分配中学习时,不仅面临客观奖励减少,其学习系统本身也会被抑制——这种"双重惩罚"效应可能成为社会不平等代际传递的认知机制。研究同时指出,降低认知负荷会增强社会信息的调节作用,这为干预设计提供了重要方向。
生物通微信公众号
知名企业招聘