
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于二维范德华铁电忆阻器的奖赏调控时序依赖可塑性实现机器人识别与追踪的高效能神经形态计算
【字体: 大 中 小 】 时间:2025年06月19日 来源:Science Bulletin 18.8
编辑推荐:
为解决神经形态系统中奖赏调控时序依赖可塑性(R-STDP)硬件实现的难题,研究人员开发了一种二维铁电忆阻晶体管(CuInP2 S6 /MoS2 ),通过多端调控实现STDP与anti-STDP的动态切换,单器件能耗低至1.3 nJ(较CMOS降低106 倍)。基于此构建的脉冲神经网络(SNN)在MNIST识别中达到95.1%准确率,并在机器人动态追踪任务中展现85.5%成功率,为交互式AI提供了高效硬件基础。
论文解读
在人工智能追求类脑高效计算的浪潮中,如何让机器像生物一样通过"试错-奖励"机制适应动态环境,一直是神经形态计算的圣杯。传统CMOS技术实现奖赏调控时序依赖可塑性(R-STDP)需要数万晶体管,而现有忆阻器又难以在单器件中实现STDP极性反转。这一瓶颈严重制约了自动驾驶、柔性机器人等实时交互场景的应用。
针对这一挑战,中国的研究团队创新性地利用二维范德华铁电材料CuInP2
S6
(CIPS)的界面极化调控特性,设计出三端忆阻晶体管。通过精确控制铁电畴翻转与载流子隧穿行为的耦合效应,首次在单器件中实现R-STDP功能。该器件仅需1.3 nJ的能耗即可完成一次突触权重更新,较传统CMOS电路降低六个数量级。
研究采用干法转移技术构建石墨烯/CIPS/MoS2
异质结,通过栅压调控Schottky势垒实现载流子输运模式切换。电学表征显示,正向栅压诱导热电子发射主导的STDP窗口(Δw+
≈0.8),而负栅压则触发Fowler-Nordheim隧穿,使STDP曲线反转为anti-STDP(Δw-
≈-0.75)。这种动态重构特性完美模拟了多巴胺调控的生物突触可塑性。
生物启发与器件实现
通过小鼠迷宫实验的类比(图1a),研究阐明了R-STDP在强化学习中的核心作用:当奖励信号(栅极脉冲)与特定动作(突触前后脉冲时序)关联时,系统能自主强化有效路径。器件测试表明,+4V栅压可使STDP时间窗口拓宽至±50ms,而-4V栅压则实现极性反转,验证了"奖赏-惩罚"双模调控能力。
SNN硬件应用
构建的全卷积SNN仅用8000参数即在MNIST分类中达到95.1%准确率,小样本学习任务中单批次训练即可完成100%推理。更引人注目的是机器人追踪实验:当目标突然从静态转为动态时,基于R-STDP的控制系统仅需5次试错即可调整追踪策略,最终成功率高达85.5%,显著优于传统PID控制器(62.3%)。
结论与展望
这项工作通过二维铁电忆阻器的多端调控特性,首次在硬件层面实现生物奖励系统的核心学习机制。其意义不仅在于创纪录的低能耗(1.3 nJ),更在于为动态环境下的实时决策提供了可扩展的硬件方案。正如作者Du Xiang和Qi Liu强调的,这种器件架构可进一步与感算一体技术结合,推动服务机器人、神经假肢等交互式AI的发展。论文发表于《Science Bulletin》,为后摩尔时代的类脑计算开辟了新路径。
生物通微信公众号
知名企业招聘