基于忆阻器阵列的高精度模拟矩阵求解器:突破传统计算瓶颈的新范式

【字体: 时间:2025年10月14日 来源:Nature Electronics 40.9

编辑推荐:

  本研究针对模拟计算长期存在的精度瓶颈问题,开发了一种基于电阻随机存取存储器(RRAM)的高精度矩阵方程求解方案。通过结合低精度矩阵求逆(LP-INV)和高精度矩阵向量乘法(HP-MVM)的迭代算法,在40纳米工艺制备的3比特1T1R RRAM芯片上实现了16×16实值矩阵的24位定点精度求解。该方案在大规模多输入多输出(MIMO)系统信号检测中仅需三次迭代即可达到FP32数字处理器性能,相比现有数字处理器可实现千倍吞吐量和百倍能效提升,为6G通信等数据密集型应用提供了新思路。

  
在当今数据爆炸的时代,求解矩阵方程Ax=b已成为信号处理、科学计算和神经网络训练等领域的核心任务。然而传统数字计算机面临双重挑战:一方面,矩阵求逆等操作具有O(N3)的计算复杂度,随着矩阵规模增大形成性能瓶颈;另一方面,冯·诺依曼架构下的存储墙问题严重制约数据密集型计算的效率。虽然基于忆阻器阵列的模拟计算(AMC)可通过物理定律实现并行计算,但精度不足和可扩展性差两大难题始终阻碍其实际应用。
针对这一困境,北京大学团队在《Nature Electronics》发表的研究工作中,提出了一种创新性的高精度模拟矩阵求逆(HP-INV)方案。该方案的核心突破在于将迭代优化思想与模拟计算优势相结合:通过低精度矩阵求逆(LP-INV)电路快速获得近似解,再利用高精度矩阵向量乘法(HP-MVM)进行残差修正,最终实现24位定点精度(相当于FP32浮点精度)的矩阵方程求解。
关键技术方法包括:1)采用40纳米CMOS工艺制备的1T1R RRAM芯片,通过写验证方法实现8个导电状态的可靠编程;2)开发比特切片技术将高精度矩阵分解为3位切片矩阵;3)设计BlockAMC算法通过矩阵分块实现大规模问题求解;4)构建混合信号系统集成LP-INV电路与HP-MVM模块。
HP-INV方案设计与实现
研究团队设计的HP-INV求解器采用全模拟矩阵运算架构,其中LP-INV操作通过带有运算放大器反馈的闭环电路实现,能在120纳秒内完成4×4矩阵求逆。HP-MVM则基于比特切片技术,将12位矩阵分解为4个3位切片矩阵,通过分布式律并行计算后合并结果。实验结果显示,对于条件数κ=7.7的测试矩阵,单次LP-INV精度仅2.4位,但经过三次迭代后元素残差降至10-3量级。
实值与复值矩阵求解扩展
针对科学计算中常见的复值矩阵问题,团队通过BlockAMC算法将4×4复值矩阵转换为8×8实值矩阵求解。实验表明,经过10次迭代后100组随机输入向量均达到24位精度。进一步采用两级BlockAMC成功求解了16×16实值矩阵求逆问题,逆矩阵元素的相对误差达到10-7量级,证明了方案的可扩展性。
大规模MIMO系统应用验证
在16×4大规模MIMO系统测试中,采用256-QAM调制的北京大学校徽图像经过无线信道传输后,HP-INV求解器仅需两次迭代即可实现零错误检测。误码率(BER)测试表明,该方案在信噪比(SNR)性能上完全匹配FP32数字处理器。进一步在128×8系统测试中,通过三级BlockAMC仅需三次迭代即达到FP32精度,验证了方案在实际通信场景中的适用性。
性能基准测试与分析
瞬态响应测试显示LP-INV电路收敛时间为120纳秒,HP-MVM操作耗时60纳秒。与英伟达H100 GPU、AMD Vega 20 GPU和专用集成电路(ASIC)的对比表明,在32×32矩阵规模下HP-INV的吞吐量已超越数字处理器,在128×128规模下能效提升3-5倍。通过优化运算放大器增益带宽积(GBWP),未来有望进一步实现4倍性能提升。
该研究通过算法-架构-器件的协同创新,成功突破了模拟计算领域的长期精度瓶颈。相比传统数字处理器,HP-INV求解器在保持同等精度的同时实现了数量级的能效提升,为未来6G通信、科学计算等数据密集型应用提供了新的技术路径。特别值得注意的是,所有实验均基于代工厂制造的RRAM芯片完成,展现了该技术走向实际应用的可行性。尽管在更大规模阵列集成方面仍面临布线复杂度、寄生参数等挑战,但本研究确立的技术框架为后续发展指明了方向。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号