面向后量子密码ML-KEM的轻量级FPGA数论变换架构设计与能效优化

《IEEE Access》:Lightweight FPGA-Based Number-Theoretic Transform for ML-KEM in Post-Quantum Cryptography

【字体: 时间:2025年12月02日 来源:IEEE Access 3.6

编辑推荐:

  本文针对资源受限的物联网设备在部署后量子密码算法ML-KEM时面临的硬件开销问题,提出了一种基于FPGA的轻量级数论变换架构。研究通过创新地址生成器设计、统一蝶形运算单元和LUT-based模块化缩减技术,实现了仅占用147个切片和557个LUT的硬件方案,较现有方案降低88.8%面积和22%动态功耗,为后量子密码在边缘计算场景的实用化提供了重要技术支撑。

  
随着量子计算技术的迅猛发展,传统公钥密码体系正面临前所未有的挑战。Shor算法能在多项式时间内破解RSA和椭圆曲线密码的数学基础,使得当前保护互联网通信的加密体系岌岌可危。尽管实用化量子计算机尚未问世,但IBM、谷歌等公司的突破性进展已敲响警钟。为应对这一威胁,美国国家标准与技术研究院(NIST)启动了后量子密码(PQC)标准化工作,其中基于模块学习带误差(MLWE)问题的CRYSTALS-Kyber算法被选为密钥封装机制(KEM)标准,并命名为ML-KEM。
然而,ML-KEM算法在多项式乘法运算上的计算复杂度成为其在资源受限设备上部署的主要瓶颈。数论变换(NTT)作为加速多项式乘法的关键技术,虽然能将计算复杂度从O(n2)降至O(n log n),但其硬件实现通常需要大量逻辑资源和内存访问,特别在地址生成和蝶形运算单元上产生显著的面积和功耗开销。这对于计算能力、存储空间和电池容量都极为有限的物联网(IoT)设备而言,构成了实际应用的重大障碍。
为解决这一难题,来自沙特阿拉伯国王大学的研究团队在《IEEE Access》上发表了一项创新研究,提出了一种专为ML-KEM优化的轻量级FPGA-based NTT架构。该研究突破了传统设计思路,将优化重点从常见的乘法器模块转向了常被忽视的地址生成器,通过紧凑的计数器机制结合XOR逻辑和多路复用技术,成功消除了大型查找表(LUT)的需求,显著减少了冗余操作。
研究团队采用了几项关键技术方法:首先设计了基于分布式LUT-RAM的存储架构替代块RAM(BRAM),实现了更灵活的资源利用;其次开发了统一的蝶形运算单元,整合了Cooley-Tukey(CT)和Gentleman-Sande(GS)算法;最后采用了优化的模块化缩减电路,实现了多周期模块化操作而不依赖DSP或BRAM资源。
地址生成器模块的创新设计
研究团队开发了一种仅需49个LUT和28个触发器的轻量级地址生成器,其动态功耗低至2mW,仅为传统设计的25%。该模块采用10位计数器结合3位XOR逻辑实现部分位反转,通过多路复用器同时产生三个地址端口(A、B和TW),分别对应多项式系数和旋转因子。算法根据操作模式(正向NTT或逆NTT)动态调整地址生成策略,确保了高效且无冲突的内存访问模式。
硬件优化的统一蝶形模块
蝶形模块作为NTT运算的核心,采用了创新的多周期架构,将CT和GS算法整合到单一硬件单元中。如图2所示,该设计通过资源共享实现了模块化加法、减法和乘法操作的复用,避免了硬件重复。特别值得关注的是,研究团队移除了传统的位反转阶段和后INTT缩放乘法,通过条件性加法操作维持了模块正确性,将必要的乘法次数减少了22次。
时序调度优化
图3和图4分别展示了正向NTT和逆INTT的四周期执行时序。通过精细的端口分配和操作调度,研究团队实现了异步LUT-RAM的高效利用。在正向NTT中,第一周期获取操作数,第二周期进行乘法运算,第三周期执行模块化加减法,第四周期完成结果写回。逆INTT采用类似但顺序调整的调度策略,确保了硬件资源的最大化利用。
模块化缩减单元优化
研究团队采用了Bertels等人提出的紧凑设计(图5),该方案基于LUT-6原语,通过减少条件加法、低精度阶段的LUT-based缩减以及K-缩减技术限制输入范围,仅用49个LUT就实现了高效的模块化缩减。此外,设计移除了模块化乘法单元中的寄存器层,将计算从三个周期减少到单周期,显著降低了触发器使用和周期延迟。
性能评估与对比分析
实验结果表明,该架构在Virtex-7平台上仅占用147个切片和557个LUT,完全无需DSP和BRAM资源。与现有最佳设计相比,实现了高达88.8%的面积减少和22%的动态功耗降低。在A2T(面积平方×时间)效率指标上,达到了7.745×105的优异表现,比对比方案提升了17.57倍。特别值得关注的是,地址生成器的功耗从传统设计的11-23mW降至仅2mW,蝶形模块功耗也仅为8mW。
研究结论表明,通过重点优化地址生成逻辑和计算核心,该架构成功解决了PQC加速器在IoT设备中的主要面积和功耗限制。其全LUT-based逻辑实现不仅增强了跨FPGA平台的可移植性,还为后量子密码在智能医疗、工业自动化和环境监测等资源受限场景中的实际部署提供了可行的技术路径。未来工作将包括通过FPGA物理实现直接评估能量特性,并探索在标准单元ASIC流程中的应用可能性,进一步拓展该轻量级架构在不同硬件平台上的适用性。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号