
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于忆阻器浮点傅里叶神经算子网络的高效科学建模研究
【字体: 大 中 小 】 时间:2025年06月21日 来源:SCIENCE ADVANCES 11.7
编辑推荐:
为解决传统数字计算平台在训练傅里叶神经算子(FNO)时存在的数据传输量大、高精度计算能耗高等问题,研究人员开发了一种异构存内计算(CIM)系统。该系统通过8个4kb忆阻器芯片实现嵌入式浮点计算流程和混合训练方案,成功求解一维Burgers方程和三维热传导问题,计算能效提升21-116倍,精度与数字处理器相当。该研究为构建未来AI-for-Science计算平台提供了新范式。
在科学计算领域,传统数值方法求解偏微分方程(PDE)面临两大困境:一是需要消耗巨大算力处理精细尺度建模,二是无法直接嵌入物理系统的实测数据。随着人工智能与科学的深度融合,新兴的傅里叶神经算子(FNO)通过直接在频域参数化积分核,展现出从微观到宏观场景的通用建模能力。然而,FNO训练过程中频繁的离散傅里叶变换(DFT)计算导致严重的冯·诺依曼瓶颈问题,传统数字处理器在能效和处理速度上已难以满足需求。
针对这一挑战,清华大学的研究团队创新性地将存内计算(CIM)范式引入科学建模领域,在《SCIENCE ADVANCES》发表了突破性研究成果。他们构建的异构CIM系统集成了8个4kb忆阻器芯片,通过浮点计算框架和混合训练策略,实现了FNO的高效能耗比训练与推理,在一维Burgers方程求解中达到99.6%的相对精度,三维热传导建模误差仅0.24°C,计算能效较GPU提升最高达116倍。
研究团队采用三项关键技术:1)基于指数预对齐和混合态映射的忆阻器浮点计算框架,实现FP32精度矩阵运算;2)异构训练架构,将固定参数部署于忆阻器阵列,可调参数在数字处理器更新;3)三维DFT的级联计算流程,通过单一阵列实现高维变换。这些技术创新使系统在保持高精度的同时,显著降低了编程开销。
【In situ FP32 computing using CIM system】通过预对齐将浮点运算解耦为指数对齐和尾数计算,采用5个1-bit单元加3个2-bit单元的混合映射策略,在10%编程随机性下实现DFT矩阵映射误差<5.2×10-4,32点DFT运算平均误差仅2.6×10-4。
【FNO training and inference with CIM system】设计包含全连接(FC)层和傅里叶层的迭代架构,其中45%的DFT/IDFT计算由忆阻器加速。混合训练方案使1D FNO训练损失收敛至4×10-3,较纯数字训练仅降低3×10-3精度。
【1D Burgers' equation solving】将预训练FC层迁移至4个忆阻器芯片后,系统对20组初始条件的求解绝对误差1.3×10-2,相对精度达99.6%。11-bit尾数编码策略使编程周期控制在25次以内。
【3D thermal conduction modeling task】采用级联DFT流程,单个10×10 DFT矩阵即可处理三维问题。在10×10×10网格上建模芯片散热,训练损失6.9×10-3,温度分布预测误差0.24°C,DFT计算占比提升至53%。
【Performance assessment】实测显示系统处理1D/3D问题的延迟分别为0.53ms/0.28ms,能耗7.29mJ/1.28mJ,能效达3.28-23.4 GFLOPS/W。当工艺节点从130nm缩放至28nm时,预计能效可再提升21-116倍。
这项研究的重要意义在于:首次实现了忆阻器系统对浮点精度神经算子的高效处理,突破了模拟计算在科学建模中的精度瓶颈;提出的异构训练架构有效平衡了计算精度与硬件开销,为后续大尺度CIM平台开发奠定了基础;在EDA和TCAD等工程场景展现出应用潜力,标志着存内计算从边缘神经网络向科学计算领域的跨越。该工作为构建下一代AI-for-Science计算基础设施提供了关键技术路径,将加速多物理场、多尺度复杂系统的模拟仿真进程。
生物通微信公众号
知名企业招聘