强化学习重塑快乐面孔优势：社会类别偏见的可塑性研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Cognition and Emotion》：Reshaping the happy face advantage with reinforcement learning

【字体：大中小】 时间：2025年10月18日 来源：Cognition and Emotion 2.2

编辑推荐：

　　本研究通过三个实验系统探讨强化学习（Reinforcement Learning）对社会类别情绪识别偏见（如快乐面孔优势，HFA）的调节作用。实验1成功复现了社会类别（荷兰白人vs.摩洛哥裔荷兰人）对HFA的调节效应；实验2-3引入强化学习任务（Go/No-Go范式），发现将行动-奖励联结赋予外群体面孔可消除原有的社会类别与情绪效价的交互作用，仅保留情绪效价主效应（p<0.05）。结果表明，通过强化学习调整评价性联结可改变情绪识别偏差，为偏见干预提供了新思路。

ABSTRACT

识别他人情绪表达对社会互动至关重要。研究表明，情绪识别受到人们对不同社会类别评价性联结（evaluative associations）的影响。本研究通过三个实验系统探讨强化学习（reinforcement learning）能否改变情绪识别中的社会类别偏见。实验1（N=40）复现了社会类别对快乐面孔优势（Happy Face Advantage, HFA）的调节作用：对荷兰白人面孔，识别快乐表情快于愤怒表情，而对摩洛哥裔荷兰人面孔无此差异。实验2-3（N_total=144）在情绪识别任务前加入强化学习Go/No-Go任务，让参与者学习对摩洛哥裔荷兰人面孔采取行动（go）以获得奖励，对荷兰白人面孔不行动（no-go）以避免惩罚。结果发现，强化学习改变了情绪识别模式：社会类别与情绪效价的交互作用消失，仅出现情绪效价主效应（p<0.05）。表明将（不）行动与奖励/惩罚对齐可改变情绪识别过程。

引言

日常社交中，情绪识别（emotion recognition）直接影响互动质量。快乐表情传递亲近信号，愤怒表情则暗示回避需求。研究显示，情绪识别存在明显偏见，例如快乐面孔优势（HFA）——人们对快乐表情的识别快于负面表情（如愤怒、悲伤）。这种优势受到社会类别（如种族、性别、年龄）的调节：例如，对女性、年轻者或优势种族（如白人）面孔的HFA更强。评价性一致性假说（evaluative congruence account）认为，社会类别相关的评价性联结会促进或抑制情绪识别：积极联结促进快乐表情识别，消极联结则抑制该过程。

近年来，研究开始关注学习机制对评价性联结的可塑性影响。例如，Lindeberg等人（2019）通过强化学习为个体面孔建立新的行为关联，成功调节了HFA。然而，能否通过强化学习改变已有社会类别（如种族群体）的评价性联结仍未知。本研究基于行动-价值不对称性学习理论（action-valence asymmetries），假设将外群体（摩洛哥裔荷兰人）面孔与行动-奖励联结，内群体（荷兰白人）面孔与不行动-惩罚避免联结，可逆转或削弱HFA的社会类别调节效应。

实验1：社会类别对HFA的复现

实验1直接复现Bijlstra等人（2010）的研究，旨在验证社会类别（荷兰白人vs.摩洛哥裔荷兰人）对HFA的调节作用。参与者（N=40）完成情绪识别任务，对快乐/愤怒的两种族群面孔进行快速分类。结果发现社会类别与情绪效价显著交互（F(1,27.97)=4.78, p=0.037）：对荷兰白人面孔，快乐表情识别快于愤怒（p=0.035）；对摩洛哥裔荷兰人面孔无差异（p=0.385）。该结果证实了HFA的社会类别依赖性，为后续干预研究奠定基础。

实验2-3：强化学习对HFA的调节

实验2（N=72）和实验3（N=72）在情绪识别任务前加入强化学习Go/No-Go任务。参与者学习对摩洛哥裔荷兰人面孔采取行动（go）以赢取奖励（Go-to-Win条件），对荷兰白人面孔不行动（no-go）以避免惩罚（No-Go-to-Avoid-Losing条件）。任务后，参与者完成相同的情绪识别任务。

结果一致显示，社会类别与情绪效价的交互作用消失（实验2：p=0.208；实验3：p=0.272），取而代之的是情绪效价主效应（实验2：F(1,57.65)=10.63, p=0.002；实验3：F(1,81.88)=6.50, p=0.013），表明快乐表情识别整体快于愤怒表情。

此外，实验2中外群体面孔的显性评价更积极（p=0.024），但实验3中该效应未达显著（p=0.063）。探索性分析发现，实验2中HFA的调节效应仅出现在第一个任务区块，提示学习效果的暂时性。

讨论与启示

本研究首次证实强化学习可改变社会类别层面的情绪识别偏见。通过行动-奖励/惩罚避免的联结，强化学习削弱了内群体-外群体在HFA上的差异，使情绪识别更依赖于表情效价而非社会类别。这一发现支持评价性一致性假说，并扩展了强化学习在社会认知中的应用。

实践层面，研究为群体偏见干预提供了新路径：正向外群体接触（行动-奖励联结）可能通过改变评价性联结减少歧视。然而，内群体偏见的顽固性（如荷兰白人面孔的HFA未被完全逆转）提示长期学习历史或内群体保护动机可能削弱干预效果。未来需增加学习强度或结合社会性奖励（如微笑反馈）以增强效应。

局限与展望

本研究未设置对照组，且实验室环境限制外部效度。显性评价结果可能受需求特性影响。此外，任务切换（如实验2的按键调整）可能削弱学习效果，提示新联结的稳定性需进一步研究。未来可探索HFA与真实歧视行为的关联，或采用更优的响应时间分析模型（如漂移扩散模型）提升精度。

结论

强化学习通过重塑评价性联结，成功调节了情绪识别中的社会类别偏见。将外群体面孔与行动-奖励联结，可促进其快乐表情识别，为理解社会偏见的可塑性及干预提供了重要证据。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号