认知计算模型揭示序列决策任务中的重复偏好：目标导向与习惯行为的动态博弈

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月14日 来源：Communications Psychology

编辑推荐：

　　研究人员针对人类决策中重复行为偏好的机制争议，通过开发Y-导航任务(Y-NAT)结合计算建模，揭示了目标导向奖励寻求与动作序列重复偏好的协同作用。研究发现，人类决策行为最佳由包含重复偏好的预期价值代理模型(EVPRM)解释，且个体重复偏好强度(h)与任务表现呈负相关，为理解习惯形成早期阶段提供了量化框架。

在人类日常行为中，从晨间惯例到工作流程，重复执行特定动作序列的现象普遍存在。这种重复究竟源于对奖励结果的理性计算，还是独立于价值的单纯行为惯性？这一争议可追溯至Thorndike提出的"效果律"（奖励驱动行为）与"练习律"（重复强化行为）的百年之争。尽管现代强化学习(RL)理论主要关注奖励机制，但越来越多的证据表明，行为重复可能具有独立于价值的认知基础。然而，在价值决策任务中实证验证这种重复偏好(repetition bias)仍存在挑战——如何区分目标导向的奖励最大化与纯粹的重复机制？

为解决这一科学问题，德国德累斯顿工业大学的研究团队设计了一项创新的序列决策任务——Y-导航任务(Y-NAT)，结合贝叶斯计算建模方法，在70名参与者中系统量化了重复偏好对决策的影响。研究发现人类决策行为同时受预期奖励和动作序列重复历史的共同调控，且这种重复偏好存在显著个体差异。该成果发表于《Communications Psychology》，为理解习惯形成的早期机制提供了新视角。

研究采用计算模型驱动的实验范式，主要技术方法包括：1）开发5×5网格世界的Y-NAT任务，通过默认动作序列(DAS)设计诱导行为重复；2）采用贝叶斯模型比较框架，构建包含重复偏好的预期价值代理与重复模型(EVPRM)及三个对照模型；3）基于留一法交叉验证(PSIS-LOO)进行模型选择；4）通过参数恢复和后验预测检验验证模型可靠性。

行为分析结果
通过传统行为指标发现，94%参与者最常使用DAS（均值54% trials），但整体DAS使用率随时间增长不显著(p=0.055)。深入分析显示：1）在DAS非最优条件下，选择率仍达43.75%；2）部分DAS选择（至少首动作匹配）显著增加(p<0.001)；3）行为变异性随时间降低(p<0.001)，且与奖励提升相关(r=-0.38)。

模型比较结果
EVPRM（含重复偏好的模型）在群体水平展现最佳预测力（LOOIC=69,942.82），显著优于仅含DAS恒定偏好的EVPBM模型（ΔLOOIC=3,343）。个体分析显示，27名高重复偏好(h>0.5)参与者被EVPRM最佳解释，其DAS选择率从第一半程46.2%显著增至第二半程51.6%(p=0.02)。

参数关联特征
关键发现包括：1）重复偏好强度(h)与奖励精度(β)呈强负相关(r=-0.75)，表明高重复偏好者更依赖历史行为；2）h与任务表现负相关(r=-0.69)，证实重复机制可能损害目标导向效率；3）参数恢复显示h在0.4-0.8区间具有良好可识别性。

这项研究通过计算模型解构了序列决策中奖励学习与重复偏好的动态博弈。理论层面，验证了Thorndike"练习律"的现代形式——动作序列的纯频率计数可形成独立于奖励的决策偏倚，这不同于传统模型自由(Model-Free, MF)强化学习的奖励依赖机制。方法论上，开发的EVPRM模型为量化习惯形成早期阶段提供了新工具，其重复强度参数(h)可作为临床强迫症等习惯障碍的潜在生物标记。实践意义在于揭示了时间压力下决策偏好的演化规律，对设计行为干预方案具有指导价值。未来研究可探索重复偏好与认知成本的神经计算机制，以及其在成瘾行为中的特异性表达模式。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号