BnnRV:面向边缘RISC-V核心的贝叶斯神经网络权重采样硬件与软件协同优化
《IEEE Transactions on Circuits and Systems for Artificial Intelligence》:BnnRV: Hardware and Software Optimizations for Weight Sampling in Bayesian Neural Networks on Edge RISC-V Cores
【字体:
大
中
小
】
时间:2025年11月22日
来源:IEEE Transactions on Circuits and Systems for Artificial Intelligence
编辑推荐:
为解决贝叶斯神经网络(BNN)在边缘设备上部署时因权重采样开销导致的计算效率低下问题,研究人员开展了面向边缘RISC-V核心的软硬件协同优化研究。他们提出一种利用均匀分布替代高斯分布进行权重采样的软件优化方法,并设计了包含定点乘加(fx.madd)指令和均匀随机数生成(fxg.unif)指令的轻量级RISC-V ISA扩展。实验表明,该方案在保持模型精度和不确定性质量的同时,实现了平均8.93倍的速度提升和87.12%的能耗降低,将BNN与传统神经网络(NN)的推理性能差距从12.16倍缩小至1.37倍,显著推动了不确定性感知的微型机器学习(TinyML)在边缘计算中的应用。
在人工智能技术飞速发展的今天,神经网络(NN)已在图像分类、自然语言处理等领域取得突破性进展。然而,传统神经网络存在一个关键缺陷:它们无法评估自身预测的可靠性。这在自动驾驶、医疗诊断等安全关键场景中带来了巨大风险——模型可能会以高置信度给出完全错误的判断。贝叶斯神经网络(BNN)通过将权重和输出表示为概率分布,为解决这一问题提供了可行路径,使模型能够量化预测不确定性,为决策提供重要参考依据。
但BNN的优势伴随着高昂的计算代价。由于其概率特性,每次推理需要进行多次前向传播,且每次前向传播中都需要从权重分布(通常是高斯分布)中采样,导致BNN的单次前向传播耗时比传统NN高出约12.16倍。这种计算开销严重限制了BNN在资源受限的边缘设备上的部署,而边缘设备恰恰是许多安全关键应用的核心载体。边缘设备通常采用低功耗微控制器(MCU),计算能力和存储资源有限,且对能耗极为敏感。尽管业界出现了专用于神经网络加速的硬件方案(如TPU),但这些方案往往成本较高且灵活性不足。RISC-V开源指令集架构(ISA)为这一困境带来了转机,其可扩展性允许引入领域专用指令,在保持程序灵活性的同时优化特定任务性能。
本研究提出了一套名为BnnRV的完整解决方案,包含软件工具链和硬件ISA扩展,旨在显著提升BNN在边缘设备上的推理效率。研究团队来自萨拉戈萨大学计算机科学与系统工程系,其成果发表于《IEEE Transactions on Circuits and Systems for Artificial Intelligence》。
研究人员采用了几项关键技术方法。首先,他们开发了BnnRV开源工具链,可将BayesianTorch训练的BNN模型转换为纯整数推理的C代码,适用于单核MCU。其次,提出了一种核心优化:利用中心极限定理(CLT),将推理阶段的高斯权重采样替换为计算更简单的均匀分布采样,并通过数学变换保持输出分布的统计特性不变。第三,基于软件优化,设计了轻量级RISC-V ISA扩展,引入了定点乘加(fx.madd)指令和高效的均匀随机数生成(fxg.unif)指令。验证过程涵盖了从简单的全连接网络到复杂的残差网络(ResNet)等多种模型架构,并使用预期校准误差(ECE)、可靠性误差(RE)和不确定性校准误差(UCE)等指标全面评估优化对模型精度、校准能力和不确定性质量的影响。
研究人员通过大量实验验证了均匀分布采样替代高斯采样的有效性。如表I所示,在八个不同的测试模型上(包括五个高光谱像素分类模型、Bayesian-LeNet-5、B2N2和Bayesian-TinyResNet),BnnRV优化后的模型与原始BayesianTorch模型相比,准确率损失极小(均匀采样平均仅降低0.18%)。更重要的是,模型校准指标(ECE, RE)和不确定性量化指标(UCE)的变化也非常小,甚至在某些情况下有所改善。例如,平均ECE降低了0.33%,RE降低了0.25%。对于衡量不确定性质量的条件概率指标PAC(准确|确定)和PUI(不确定|不准确),其曲线与基线模型高度吻合,最坏情况的均方误差(MSE)也极低(PAC为94.1x10-5,PUI为8.11x10-5)。图3展示了最坏情况下的PAC和PUI曲线,直观地显示了优化前后模型行为的一致性。图4进一步比较了置信度和不确定性输出分布,结果表明优化后的分布与基线模型高度相似,证明了不确定性估计的有效性得以保持。这项工作通过广泛的验证推翻了先前认为该优化仅适用于小模型的结论,证实了其可应用于任意规模的BNN模型。
在软件优化的基础上,研究者提出了一个微小的RISC-V ISA扩展,包含两条关键指令:fxg.unif(均匀随机数生成)和fx.madd(定点乘加)。fx.madd指令在一个周期内完成乘法、加法和移位操作,解决了软件实现定点MAC需要三条指令的问题。他们提出了两种硬件实现方案:一种是注重模块化的独立功能单元设计(图5和图6),另一种是共享移位器并复用现有乘法器硬件的优化设计(图7)。性能评估在一個32位5级流水线RISC-V处理器上进行。图8显示了模型大小(以贝叶斯操作数衡量)与执行周期数的关系。结果表明,纯软件优化(S-OPT)带来了平均4.96倍的加速,而软硬件联合优化(SH-OPT)达到了平均9.12倍的加速。图9的执行剖析图更清晰地揭示了优化效果:在基线实现中,权重采样占据了超过80%的执行周期,是主要的性能瓶颈。经过S-OPT优化后,采样开销大幅降低。而SH-OPT通过自定义指令进一步加速了剩余的计算密集型操作,使得控制开销成为新的主要限制因素。不同模型的加速比存在差异(7.62x至10.33x),这与模型架构(如卷积层带来的循环控制开销)以及编译器优化效果有关。
硬件扩展的资源开销很小。在Zynq UltraScale+ ZCU104 FPGA评估板上,优化后的实现仅比基线处理器增加13.85%的LUT(查找表)使用量,寄存器使用量不变,DSP(数字信号处理器)块使用量不变,功耗仅增加3mW(从33mW到36mW)。相比之下,传统的离散加速器(如B2N2和VIBNN)需要消耗数千毫瓦的功率和大量的FPGA资源。如表III和表IV所示,SH-OPT方案实现了平均8.19倍的能效(图像/焦耳)提升和87.12%的能耗降低。最终,如表VI所示,这项研究成功地将BNN推理与传统NN推理的性能差距从12.16倍缩小到了仅1.37倍。
本研究通过巧妙的算法变换和轻量级的硬件扩展,显著降低了贝叶斯神经网络在边缘设备上的推理开销。其核心贡献在于证明并实现了利用均匀分布替代高斯分布进行权重采样的可行性,且通过详尽的验证证实该方法适用于各种规模的模型,不会损害BNN的核心价值——不确定性估计的质量。所提出的BnnRV工具链和RISC-V ISA扩展具有低成本、高能效和灵活性的特点,为在资源受限的边缘设备上部署可靠、不确定性感知的人工智能模型铺平了道路。这项工作将BNN推理的性能瓶颈从权重采样转移到了控制开销,使得未来可以专注于应用已有的神经网络优化技术来进一步提升性能,从而极大地推动了贝叶斯深度学习在边缘计算领域的实用化进程。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号