
-
生物通官微
陪你抓住生命科技
跳动的脉搏
工作记忆突触可塑性驱动的主动探索行为在好奇心学习中对目标导向行为的塑造机制研究
【字体: 大 中 小 】 时间:2025年05月06日 来源:Cognitive Systems Research 2.1
编辑推荐:
为解决机器人自主发现和学习目标的难题,研究人员基于神经科学原理构建了整合注意力、工作记忆和探索行为的认知架构。研究通过变分自编码器(VAE)将潜在空间投影至动态神经场(DNF),并引入线性缩放因子(SF)模拟突触可塑性。结果表明低SF值(35)支持随机探索产生多样化动作,而高SF值(150)促进定向探索并提升目标学习效率。该研究为发育机器人学提供了神经可塑性影响认知发展的实验证据,发表于《Cognitive Systems Research》。
在人工智能和机器人技术快速发展的今天,如何让机器像人类婴儿一样通过自主探索来学习和掌握技能,一直是研究者们追求的目标。传统方法往往需要大量预设目标和监督信号,这与人类自然学习过程相去甚远。近年来,受发育心理学和神经科学启发的"好奇心驱动学习"成为突破这一瓶颈的新思路,但其中关键问题仍未解决:大脑如何通过突触可塑性调节探索策略?注意力机制如何引导目标学习?
针对这些问题,研究人员开展了一项创新性研究。他们构建了一个融合多认知模块的生物启发架构,核心突破在于将变分自编码器(VAE)的潜在空间通过线性缩放投影到动态神经场(DNF)中,这种独特的映射方式首次实现了对工作记忆突触可塑性的量化调控。研究采用PincherX150机器人平台,通过Azure Kinect摄像头获取环境信息,结合动态神经场理论和Hebbian学习机制,实现了自主目标发现与学习全过程。
关键技术方法包括:1) 使用VAE和自编码器(AE)构建感知表征系统;2) 设计基于动态神经场的注意力机制,包含抑制性(inhib.out)和差异性(diff.out)神经场;3) 建立模仿蓝斑核(LC)功能的探索控制模块;4) 开发基于学习进度(LP)的 curiosity机制;5) 采用多层感知机(MLP)构建前向和逆向预测模型。
研究结果部分,"注意力与目标序列"实验显示:当缩放因子(SF)为25时,神经场激活范围广泛,允许较大误差的目标匹配;而SF增至100后,仅精确匹配的刺激能激活神经场。"主动探索"部分通过15次重复实验证明:SF=35时随机探索占比78%,产生多样化动作(vx,vy分布p=0.0664);SF=100时系统在发现2个目标后转向定向探索,动作精确性显著提高(p=0.004)。"目标学习"部分发现:高SF条件下学习样本减少40%,但需要更长时间(约1750秒)达到误差<0.005;而低SF虽学习速度快,但逆向模型误差持续较高,表明动作控制未完全掌握。
在结论与讨论部分,研究者将发现与婴儿发育研究相联系:低SF模拟婴儿早期的随机探索阶段,高SF对应后期精确的目标导向行为。这种转变被解释为工作记忆神经环路可塑性变化的结果——局部兴奋范围随发育逐渐缩小,同时抑制增强。研究创新性地提出缩放因子可作为量化突触可塑性的计算指标,为理解神经发育如何塑造学习能力提供了机器人学证据。
该研究的局限在于当前系统仅处理单一物体交互,且固定缩放因子未能完全模拟发育动态过程。未来工作将探索多物体场景下的表征分离问题,以及自适应的动态SF调节机制。这些发现不仅对发育机器人学具有重要价值,也为理解人类认知发展中的关键期现象提供了新的计算视角。论文发表在《Cognitive Systems Research》,其开源代码为后续研究提供了可重复的实验框架。
生物通微信公众号
知名企业招聘