动物决策机制新探：时间延迟如何影响奖励冲突中的选择偏好

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月31日 来源：Animal Cognition 2.1

编辑推荐：

　　本研究针对动物在奖励冲突情境中的决策机制，通过系统操纵训练阶段奖励条件和测试延迟时间，探究时间因素如何影响选择偏好。研究发现动物在稳定奖励条件下能长期保持偏好，而在奖励条件变化后表现出复杂的动态调整模式，为理解TWR（Temporal Weighting Rule）和EWMA（Exponentially Weighted Moving Average）模型的应用边界提供了新证据。

在自然界中，动物时刻面临着复杂的决策挑战——当食物资源分布随时间变化时，如何权衡历史经验与最新信息成为生存的关键。这一科学问题在行为经济学和神经科学领域被称为"探索-利用困境"（explore-exploit dilemma）。传统理论认为动物会采用动态平均策略来优化决策，但关于时间因素如何具体影响决策过程，特别是长期延迟后的选择偏好变化机制，仍存在重大理论缺口。

美国犹他州立大学（Utah State University）的Jack Van Allsburg和Timothy A. Shahan团队在《Animal Cognition》发表的最新研究，通过精密的啮齿类动物行为实验，系统考察了时间延迟对奖励冲突决策的影响机制。研究人员设计了三组巧妙的实验：实验1采用稳定的9:1奖励比例训练14天后测试不同延迟（1-32天）下的选择偏好；实验2在训练中期插入2天的奖励反转阶段；实验3则在长期偏向训练后改为等比例奖励。所有实验均采用操作性条件反射装置，通过VI（可变间隔）程序控制奖励发放，并记录大鼠在双选择任务中的反应分配。

研究结果展现出令人惊讶的模式：在实验1的稳定训练条件下，动物即使经过32天延迟仍保持接近训练终期的选择偏好（P_A=0.902），这直接否定了"时间本身导致偏好漂移"的假说。实验2通过在训练中期设置2天的奖励反转（P_A从0.880降至0.201再恢复至0.908），发现测试延迟并未引起偏好显著变化（F(3,35)=0.091,p=0.964）。实验3将终期训练改为等比例奖励后，各延迟组的偏好稳定在P_A≈0.7水平，既未出现TWR预测的自发恢复（SRC），也未显现明显的偏好漂移。

模型拟合分析揭示了理论模型的局限性：虽然多时间尺度EWMA模型（如EWMA3）能较好拟合数据（R²=0.848），但其参数估计在不同实验间存在显著变异（β从0.262到0.699），缺乏稳定性。相比之下，传统TWR模型在长期延迟情境下的预测力明显不足，说明现有理论难以完整解释时间因素对决策的动态影响。

这项研究的重要意义在于：首先，它确立了奖励条件稳定性对时间效应的重要调节作用——只有在训练末期经历奖励变化时，延迟才会影响选择偏好；其次，研究结果对动态平均理论提出挑战，表明需要发展能整合环境变异性和时间尺度相互作用的新模型；最后，方法论上揭示了传统动物行为实验在考察长期效应时面临的样本量困境，为未来研究设计提供了重要参考。这些发现不仅推进了动物决策机制的认知，也为人工智能中的强化学习算法优化提供了生物启发。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号