HiFA:一种高性能且灵活的加速框架,用于大规模数论变换

《ACM Transactions on Reconfigurable Technology and Systems》:HiFA: A High-Performance and Flexible Acceleration Framework for Large-Size Number Theoretic Transform

【字体: 时间:2025年11月08日 来源:ACM Transactions on Reconfigurable Technology and Systems

编辑推荐:

  针对大规模数论变换(NTT)在FPGA上的性能瓶颈问题,本文提出HiFA框架。该框架通过堆叠NTT架构、新型排序模块和专用洗牌模块优化数据流,并结合自动参数搜索设计空间探索(DSE)实现硬件配置优化,实验表明其速度提升达2.97倍,能效比GPU方法高2.24倍。

  

摘要

零知识证明(ZKP)和同态加密(HE)对于云、区块链和分析等应用中的数据隐私至关重要。然而,在实际应用中,这些技术往往面临性能挑战,尤其是在执行多项式乘法所需的数论变换(NTT)时,当涉及的大小超过2^20或整数宽度较大(例如256位)时尤为明显。FPGA为加速计算提供了一个有前景的平台,但由于片上资源有限,高效实现大尺寸的NTT仍然具有难度。广泛采用的四步NTT方法虽然减少了对外部大容量内存(HBM)的需求,但却引入了性能瓶颈。首先,传统的数据流NTT架构可能无法充分利用可用的计算能力,从而阻碍了性能的提升;此外,在矩阵转置阶段,对非顺序访问外部高带宽内存(HBM)会导致效率低下。
为了解决这些挑战,我们提出了HiFA,这是一个基于FPGA的自动加速框架,专为高性能和灵活的大尺寸NTT计算而设计。HiFA采用堆叠式NTT架构以实现高并行性,并通过一种新颖的重排序模块支持多种不同大小的多项式。同时,集成了一种专门的循环洗牌模块来优化矩阵转置过程中的数据传输,从而减少随机内存访问延迟。HiFA还提供了一个自动设计空间探索(DSE)框架,用于确定最优的四步分解参数并生成相应的硬件配置。实验表明,HiFA的FPGA实现相比现有的最先进FPGA解决方案,平均加速比达到了2.97倍,延迟降低了最多7.25倍;与基于GPU的方法相比,其平均能效提升了2.24倍。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号