
-
生物通官微
陪你抓住生命科技
跳动的脉搏
一个统一的强化学习模型,用于解释习惯形成与巴甫洛夫式行为与工具性行为的相互作用
《Scientific Reports》:A single reinforcement learning model to unify habit formation and Pavlovian-instrumental interaction
【字体: 大 中 小 】 时间:2026年06月09日 来源:Scientific Reports 3.9
编辑推荐:
摘要条件反射范式观察到了动物的学习行为。解释这些行为的理论认为,大脑适当地结合了两种强化学习系统:基于模型的系统和基于模型的系统。结合这两种系统有两种方式:一种是混合系统,其中两个系统独立运作但最终结合在一起;另一种是单一系统,其中两个系统协同工作。虽然混合系统已被广泛讨论,但单
条件反射范式观察到了动物的学习行为。解释这些行为的理论认为,大脑适当地结合了两种强化学习系统:基于模型的系统和基于模型的系统。结合这两种系统有两种方式:一种是混合系统,其中两个系统独立运作但最终结合在一起;另一种是单一系统,其中两个系统协同工作。虽然混合系统已被广泛讨论,但单一系统在功能方面的研究还不够充分。在这里,我们提出了一种整合了基于模型的系统和基于模型的系统的单一模型,以涵盖巴甫洛夫条件反射的作用。我们的模拟结果表明,该模型能够以统一的方式解释习惯形成、巴甫洛夫条件反射以及从巴甫洛夫条件反射到工具性行为的迁移现象。这表明在单一系统中有可能再现各种学习现象。