基于忆阻存算一体技术的贝尔曼求解器助力高效决策研究

【字体: 时间:2025年05月28日 来源:Nature Communications 14.7

编辑推荐:

  动态规划核心贝尔曼方程求解耗资源,传统冯?诺依曼架构效率低。研究人员提出忆阻贝尔曼求解器(MBS),融合时间维度将迭代转递归点积,利用忆阻器噪声实现近似解。在路径规划中验证其减少迭代周期,为高效决策系统提供新方案。

  
在人工智能与智能系统领域,动态优化决策的效率始终是制约其发展的核心瓶颈之一。作为动态规划的核心数学工具,贝尔曼方程(Bellman equation)通过迭代计算状态价值函数实现最优决策路径规划,但其递归双期望的求解过程计算复杂度极高,传统冯?诺依曼架构下的计算系统因 "存储墙" 问题难以高效支撑大规模迭代运算。随着忆阻存算一体技术(Memristive Computing-in-Memory, MCIM)的兴起,利用忆阻器阵列的向量矩阵乘法(Vector-Matrix Multiplication, VMM)特性加速计算成为可能,但贝尔曼方程的迭代本质与 MCIM 擅长的单次矩阵运算存在天然适配难题,如何突破这一技术壁垒成为学术界关注的焦点。

为攻克传统计算架构在动态优化决策中的效率瓶颈,安徽大学集成电路学院联合复旦大学芯片与系统前沿技术研究院、中国科学技术大学微电子学院等国内研究机构的科研团队,开展了忆阻存算一体技术与贝尔曼方程求解融合的创新性研究。研究团队提出一种忆阻贝尔曼求解器(Memristive Bellman Solver, MBS),通过软硬件协同优化策略,成功将贝尔曼方程的迭代求解过程转化为适合 MCIM 实现的递归点积运算,并利用忆阻器 intrinsic 噪声特性加速近似解收敛,相关成果发表在《Nature Communications》。

研究中采用的关键技术方法包括:

  1. 时间维度引入与递归点积转换:将传统无时间维度的贝尔曼方程重构为含时间序列的递归形式,通过引入时间步长 t,将状态价值函数 Vt与 Vt-1的迭代关系转化为点积运算,使忆阻器阵列可通过映射状态转移概率 P (St-1|St) 为电导矩阵、奖励函数 R (St) 与衰减价值 γVt-1为输入向量,实现高效计算。
  2. 忆阻器噪声利用:利用 TiN/TaOx/HfOx/TiN 结构的 1T1R 忆阻器阵列固有读写噪声(符合高斯分布),在状态转移概率区分度低时引入随机扰动,通过模拟退火机制加速近似解收敛,突破传统精确计算的迭代次数限制。
  3. 路径规划验证平台:构建 5×5 迷宫与 19 状态道路地图等决策场景,通过对比精确解与近似解的迭代次数、能耗及收敛速度,验证 MBS 的实际效能。

研究结果


1. 忆阻贝尔曼求解器的架构设计与理论突破


传统贝尔曼方程的 "动作隐式逆向归纳" 形式因缺乏时间维度,无法直接适配 MCIM 的 VMM 运算。研究团队通过引入时间维度,将方程重构为 Vt=R(St)+γ∑P(St-1|St)Vt-1,并基于时间平滑性与局部一致性假设,进一步简化为递归点积形式 Vt=[R(St)+γVt-1]·∑P(St-1|St)。理论证明该重构不影响收敛性,且通过巴拿赫不动点定理(Banach Fixed-Point Theorem)验证其收敛至唯一解,同时收缩因子 γ 的存在确保收敛速度优于传统方法。

2. 忆阻器噪声对近似解的加速效应


在数字计算系统中,当状态转移概率相近时需大量迭代以区分差异(如 P1=0.5 与 P2=0.5 时),而忆阻器的高斯分布噪声(δintrinsic~N(0,φ2))可作为 "随机扰动源",使概率值产生微小偏移(如 P1=0.51 与 P2=0.49),通过蒙特卡洛采样机制提前终止无效迭代。仿真结果表明,在含 100 个状态的系统中,精确解需 k=800 次迭代收敛,而引入噪声的近似解仅需 k'=375 次,迭代次数减少 53%。

3. 硬件实现与路径规划验证


基于 1kb 规模的 1T1R 忆阻器阵列(图 3a),通过调节栅极电压实现多电导态编程(图 3c),成功映射状态转移概率矩阵。在 5×5 迷宫任务中,MBS 通过 4 次优化迭代即获得与精确解一致的路径(红色箭头),而传统方法需 12 次迭代;能耗对比显示,MBS 较 GPU 降低约 3 个数量级(~10-3×)。在 19 状态道路地图任务中,近似解同样实现快速收敛,验证了算法的普适性。

4. 误差分析与适用场景拓展


研究定义时间平滑误差 δt与空间一致误差 δs,证明当 γδs?|Vt| 时,递归点积方程与原方程误差可忽略。MBS 主要适用于状态转移概率已知场景,对于策略未知问题可嵌入 Q 网络训练,通过求解损失函数加速强化学习进程。

结论与意义


该研究通过软硬件协同创新,构建了首个基于忆阻存算一体技术的贝尔曼方程求解框架,突破了传统迭代算法与 MCIM 架构的适配难题。通过时间维度重构与噪声利用的双重优化,MBS 实现了计算复杂度从 O (k|S|2) 到 O (K|S|) 的量级降低(k'?k),为动态规划在自动驾驶路径规划、机器人运动控制、金融投资组合优化等领域的实时决策应用提供了高效硬件方案。忆阻器噪声从 "干扰因素" 到 "计算资源" 的创新性利用,开辟了存算一体架构中噪声正向设计的新研究方向,其兼容现有 CMOS 工艺的 1T1R 阵列设计(图 3a_ii)为芯片级集成奠定了基础。未来可进一步拓展至连续状态空间与多智能体决策系统,推动智能硬件向低功耗、实时化方向跨越式发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号