亲社会性如何调节为他人决策中的模型化认知参与：基于强化学习漂移扩散模型的证据

《npj Science of Learning》：Deciding for others diminishes model-based decision-making but depends on individual prosociality

【字体：大中小】 时间：2026年01月11日 来源：npj Science of Learning 3

编辑推荐：

　　本研究针对人们在为自身vs.他人决策时认知策略的差异这一核心问题，通过结合两阶段任务与强化学习漂移扩散模型（RLDDM），揭示了为他人决策会削弱依赖心智模型的模型化（model-based）决策，但减缓的是模型无关（model-free）学习速率；个体社会价值取向（SVO）调节此差异，亲社会者差异更小。这为理解亲社会目标导向行为的计算机制提供了新视角。

在日常生活中，人们不仅为自己做决定，也频繁地为他人做选择，例如父母为孩子规划未来、理财师为客户投资、政府制定影响广泛的公共政策。这些决策往往需要在复杂多变的环境中深思熟虑、灵活调整。成功的决策依赖于学习，而学习过程通常由两种系统支持：一种是快速、省力但相对僵化的模型无关（model-free）系统，它基于过往行动的直接奖赏进行学习，类似于“试错”；另一种则是更耗费认知资源、但更灵活的目标导向的模型化（model-based）系统，它需要构建并利用对任务结构的心智模型来进行前瞻性规划，如同下棋时需要思考棋局和对手的潜在反应。一个关键而尚未解决的问题是：当人们为自己做决定与为他人做决定时，是否会以相同的程度调用这种需要付出更多心智努力的模型化策略？驱动这种“为己”与“为人”决策差异背后的具体计算机制是什么？此外，个体的亲社会倾向（即关心他人福祉的程度）是否会影响这种决策模式的切换？

为了回答这些问题，香港城市大学社会科学及行为学系的研究团队在《npj Science of Learning》上发表了一项研究，题为“Deciding for others diminishes model-based decision-making but depends on individual prosociality”。该研究通过一项精巧的两阶段决策任务，结合计算建模方法，深入剖析了为他人决策时的认知过程。

研究人员招募了92名成年参与者，让他们在一个游戏化的场景中完成一项两阶段决策任务。参与者需要选择不同的宇宙飞船（第一阶段）以访问特定的星球（第二阶段），从而为自己或一位匿名的未来参与者获取奖励分数。任务的核心设计在于，它能有效区分模型化与模型无关决策策略的行为特征。模型化决策者能够利用对任务转换结构的心理表征（即知道每个飞船会飞往哪个星球），即使最近没有经历过某个转换，也能推断并选择通往更高奖励星球的飞船。而模型无关决策者则主要依赖特定情境下的行动-奖赏关联历史来做选择，无法进行有效的跨情境概括。

研究的关键创新在于采用了强化学习漂移扩散模型（RLDDM）来同时分析参与者的选择行为和反应时间。该模型将决策视为一个证据积累的过程：个体不断收集信息，直到累积的证据达到某个决策阈值。通过此模型，研究者能够分解出影响决策的各种计算参数，例如模型化权重（反映模型化价值估计对决策的影响程度）、模型无关学习速率（反映根据新结果更新价值估计的速度）、非决策时间（反映刺激编码、记忆检索等非决策过程所需时间）以及决策阈值等，从而更精确地揭示“为己”与“为人”决策差异的认知根源。

本研究主要采用了以下几种关键技术方法：1. 行为实验范-两阶段任务，用于有效区分模型化与模型无关决策策略的行为特征。2. 计算建模-强化学习漂移扩散模型（RLDDM），用于从选择行为和反应时间数据中拟合和分离出多个关键的认知计算参数（如模型化权重、模型无关学习速率、非决策时间等）。3. 心理测量-社会价值取向（SVO）滑块测量，用于评估参与者稳定的亲社会性个体差异。4. 分层贝叶斯逻辑回归分析，用于进行模型无关的行为特征分析。5. 参数恢复分析和后验预测检验，用于验证计算模型的有效性和可靠性。研究样本为从香港城市大学周边社区招募的92名有效成年参与者。

模型无关分析结果

初步的行为分析发现，参与者为自己做决定时获得的总奖励分数显著高于为他人决策时，但两者的决策反应时间没有显著差异。通过分层贝叶斯逻辑回归模型对行为特征的分析表明，参与者为自己决策时，对模型化策略和模型无关策略的依赖程度都更高。更重要的是，个体的社会价值取向（SVO）调节了“为己”与“为人”在模型化策略依赖上的差异：亲社会取向（SVO得分高）的个体，其模型化决策在为自己和为他人时的差异较小；而亲自我取向（SVO得分低）的个体，则表现出更大的差异。SVO对模型无关策略的自我-他人差异则没有显著的调节作用。

计算建模结果

RLDDM的分析结果进一步细化了上述发现。在模型化系统方面，为他人决策时的模型化权重显著低于为自己决策时，表明确实减少了对心智模型的运用。在模型无关系统方面，虽然模型无关权重本身没有自我-他人差异，但为他人决策时的模型无关学习速率显著降低，意味着根据新结果更新价值估计的速度变慢了。此外，为他人决策时的非决策时间也更短。相关性分析显示，模型无关分析中观察到的“为己”与“为人”在模型化行为特征上的差异，与计算模型中发现的两个参数差异有关：模型化权重的降低和模型无关学习速率的减慢。中介分析进一步揭示，非决策时间的缩短部分中介了模型化权重的降低，这提示为他人决策时，个体可能减少了对任务结构心智模型的检索和运用。个体差异分析也支持这一点：那些为他人决策时花费更多非决策时间的个体，也表现出更高的亲社会模型化权重。

社会价值取向（SVO）与模型化权重的关联

相关分析重复并支持了模型无关分析的结果：个体的SVO得分与“为己”和“为人”决策间的模型化权重差异呈负相关。即越是亲社会的个体，他们在为自己和为他人进行模型化决策时的投入差距越小。后续分析表明，SVO与模型化权重差异的关联是特异性的，与其他模型参数（如模型无关权重、学习速率、非决策时间等）的自我-他人差异无关。

该研究通过计算建模方法，清晰地揭示了为他人决策时认知努力投入减少的计算机制。具体表现为模型化决策的减弱（模型化权重降低）和模型无关学习的放缓（学习速率降低）。非决策时间的中介作用揭示了与记忆检索相关的认知过程在亲社会模型化决策中的重要性。更重要的是，个体的社会价值取向塑造了这种决策模式，亲社会者更愿意将认知资源投入到为他人谋利的规划性决策中。这些发现不仅深化了我们对社会决策，特别是亲社会目标导向行为背后计算机制的理解，也暗示了在资源（包括认知资源）分配上可能存在一种跨领域（从物质资源到心智资源）的共享原则。研究结果对于理解人们在合作、利他、领导力等社会互动中的认知基础具有启示意义，并展示了计算精神病学等方法在社会认知研究中的强大潜力。未来的研究可以进一步探讨社会距离、接收者特征等因素对亲社会模型化决策的影响，以及其背后的神经机制。

热点排行