环境需求驱动下模型化与无模型化控制的策略仲裁机制研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年10月14日 来源：COGNITIVE, AFFECTIVE & BEHAVIORAL NEUROSCIENCE 2.7

编辑推荐：

　　本研究针对人类决策过程中模型化控制(model-based)与无模型控制(model-free)的策略选择机制，通过两阶段决策任务（n=140）发现：当环境频繁出现首阶段状态交替时，个体会更倾向采用模型化策略，通过内部模型进行奖励泛化；而首阶段状态重复频次高时，无模型控制的重复奖励行为更具优势。结果表明人类能根据环境需求通过成本效益分析动态仲裁强化学习策略。

人类既会不假思索地重复曾获奖励的行为（无模型控制，model-free），也具备依赖环境内部模型进行前瞻规划的能力（模型化控制，model-based）。为探究个体能否根据环境需求调节策略使用，研究人员设计了两阶段决策任务：参与者需追踪两个第二阶段状态对应的浮动奖励，每个试验从两种首阶段状态之一开始，各提供两个确定性导向第二阶段状态的选择。若参与者能在首阶段选项间成功泛化奖励信息，则体现模型化控制；若仅重复先前奖励选择则反映无模型行为。通过操纵首阶段状态交替与重复的频率发现：当状态频繁重复时，无需参考转移结构，采用无模型控制直接重复奖励行为更高效；而当状态频繁交替时，模型化控制能通过考虑转移结构实现奖励泛化。实验证实，接触更多首阶段状态交替的参与者（n=140）在测试阶段表现出更强的模型化控制倾向，表明人类能够基于环境需求通过成本效益分析实现强化学习策略的动态仲裁。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号