大型语言模型在配备硅向量加速功能的64核RISC-V CPU上的推理性能

《Future Generation Computer Systems》:Inference Performance of Large Language Models on a 64-core RISC-V CPU with Silicon-Enabled Vectors

【字体: 时间:2025年11月10日 来源:Future Generation Computer Systems 6.2

编辑推荐:

  大型语言模型(LLMs)在RISC-V架构上的推理性能受RVV矢量扩展影响显著,性能提升与矩阵形状、算术强度及批处理大小相关,内存受限场景可能反降效率。

  近年来,人工智能(AI)技术的快速发展推动了对高性能计算能力的需求,特别是在需要快速响应的计算密集型应用领域。例如,使用大型语言模型(LLMs)进行文本生成,已经成为许多企业和研究机构关注的重点。这类应用对硬件提出了更高的要求,不仅需要强大的计算能力,还必须在有限的功耗条件下实现高效运行。这促使研究人员探索新的硬件架构,其中RISC-V架构因其开放性、灵活性和可定制性,逐渐成为一种具有潜力的选择。

RISC-V架构是一种开源的指令集架构(ISA),它允许开发者根据具体需求进行硬件设计和优化。相较于传统的复杂指令集计算(CISC)架构,RISC-V在功耗控制方面表现出色,这使其在移动设备、嵌入式系统以及需要高能效的计算场景中具有独特优势。此外,RISC-V Vector(RVV)扩展的引入,为并行计算提供了更强的支持,使得该架构在处理大规模并行任务时更加高效。RVV v0.7.1的商用发布进一步提升了RISC-V架构在高性能计算领域的竞争力,尤其是在需要加速语言模型推理任务的场景中。

本文的研究重点是评估几种主流语言模型在SOPHON SG2042 64核RISC-V架构上的推理性能。SOPHON SG2042是一款基于RISC-V的多核处理器,配备了RVV v0.7.1的硅实现扩展,为高性能计算提供了坚实的硬件基础。研究团队选择了BERT、GPT-2、Gemma-2、Llama-3.2和DeepSeek-LLM这五种模型进行测试,以全面了解RVV扩展对不同模型推理性能的影响。这些模型在自然语言处理领域具有广泛的应用,涵盖了从基础的Transformer结构到更为复杂的语言模型。

为了更好地利用RVV的并行计算能力,研究团队在PyTorch中集成了OpenBLAS和BLIS这两个优化库。OpenBLAS和BLIS都是旨在提供高效线性代数运算的库,它们分别采用了不同的实现策略,但都支持RVV v0.7.1指令集。通过使用这些库,团队能够更有效地将模型推理过程中的矩阵乘法(GEMM)操作向量化,从而提升整体性能。然而,实验结果表明,RVV的性能提升并非在所有情况下都显著,而是与工作负载的特性密切相关。

研究发现,RVV的性能表现受到矩阵形状和算术强度的影响。在算术强度较低的情况下,例如使用小批量(batch size为1)进行推理时,RVV的向量化可能反而会带来额外的开销,导致推理速度下降。这种现象在传统的合成微基准测试中难以察觉,但通过实际的模型运行和性能分析,研究团队能够揭示这些隐藏的瓶颈。例如,通过使用屋顶线模型(roofline model)进行分析,团队发现小批量推理任务主要受限于内存带宽,而无法充分利用RVV的计算能力。

此外,研究还分析了不同模型大小和数据类型对推理性能的影响。GPT-2模型有四种不同的参数规模,从1.36亿到16亿参数不等,而LLama-v3.2模型则使用了bf16和fp32两种数据格式。实验结果表明,模型的规模和数据类型对RVV的性能提升有显著影响。当模型规模增大或数据精度提高时,RVV的加速效果更加明显。这说明,为了充分发挥RVV的潜力,需要在模型设计、数据格式选择以及并行计算策略上进行细致的调整和优化。

研究团队还探讨了如何通过增加并行性来提升模型推理性能。在SOPHON SG2042平台上,通过调整线程数和任务分配策略,可以显著改善模型的推理效率。然而,这种优化并非一成不变,而是需要根据具体的模型结构和硬件特性进行动态调整。例如,某些模型可能更适合采用特定的线程配置,而另一些模型则可能需要更复杂的任务调度机制。

总的来说,本文的研究揭示了RVV扩展在语言模型推理中的潜力与挑战。虽然RVV能够显著提升某些模型的推理性能,但在特定条件下,如小批量推理或低算术强度任务,其效果可能并不理想。这表明,在实际应用中,需要综合考虑模型的特性、数据格式、批量大小以及硬件平台的配置,才能实现RVV的最大化利用。研究结果不仅为RISC-V架构在AI领域的应用提供了重要的参考,也为未来在该架构上进行优化和改进提供了方向。

在实际测试中,研究团队使用了Milk-V Pioneer Box这一商用开发平台,该平台搭载了SOPHON SG2042处理器,并配备了128GB DDR4内存和1TB PCIe 3.0 SSD,为大规模模型推理提供了足够的资源支持。实验环境基于Linux fedora-riscv 6.1.31操作系统,确保了测试的稳定性和可重复性。通过对比不同配置下的推理性能,团队能够更准确地评估RVV的实际效果。

研究还指出,当前在RISC-V平台上运行语言模型仍面临一些软件层面的挑战。尽管RVV扩展为并行计算提供了强大支持,但现有的软件工具链在充分利用这些特性方面仍有不足。例如,OpenBLAS和BLIS虽然能够支持RVV指令,但它们的配置和优化方式对性能提升的影响较大。因此,为了更好地发挥RVV的优势,需要进一步开发和优化针对该架构的软件库,使其能够更高效地支持语言模型的推理任务。

从研究结果来看,RVV扩展在提升推理性能方面具有巨大潜力,尤其是在处理大规模并行任务时。然而,这一潜力的实现需要依赖于对模型特性的深入理解和对软件工具链的持续优化。未来的研究方向可能包括探索更高效的向量化算法、改进现有的优化库以更好地适配RISC-V架构,以及开发新的软件框架,以更全面地支持RVV的并行计算能力。

此外,本文的研究还强调了硬件和软件协同优化的重要性。RISC-V架构的灵活性使其能够适应不同的应用场景,但这种灵活性也意味着需要更多的软件支持来充分发挥其性能。因此,未来的工作不仅需要关注硬件设计,还需要在软件层面进行深入研究,以确保RISC-V平台能够高效地支持AI应用的快速发展。

最后,本文的研究团队由来自意大利都灵大学的四位研究人员组成,他们在各自的研究领域中都有丰富的经验。Adriano Marques Garcia在并行流处理的基准测试方面有深入研究,Giulio Malenza则专注于方法论和实验设计,Robert Birke在项目管理和资源协调方面发挥了重要作用,而Marco Aldinucci则负责整体的项目管理和资金获取。这四位研究人员的合作为本文的研究提供了坚实的理论基础和技术支持,同时也为未来在RISC-V架构上进行更多相关研究奠定了基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号