一种考虑竞争因素的GPU线程块调度器,用于提升GPU与SSD之间的数据传输效率

《IEEE Computer Architecture Letters》:Contention-Aware GPU Thread Block Scheduler for Efficient GPU-SSD

【字体: 时间:2025年11月13日 来源:IEEE Computer Architecture Letters 1.4

编辑推荐:

  大语言模型在移动设备上的高效处理面临内存限制,本文提出基于BSP GPU编程模型的CA-Scheduler调度方案,通过预判SSD存储位置和优化线程块工作顺序减少内存冲突,提升GPU-SSD协同吞吐量。

  

摘要:

随着大规模语言模型(LLM)数据集规模的不断扩大,低成本固态硬盘(SSD)已成为扩展移动设备中GPU内存的流行解决方案。在本文中,我们介绍了CA-Scheduler,这是一种针对GPU发起的SSD访问的竞争感知调度方案。CA-Scheduler的核心思想是利用BSP GPU编程模型,该模型允许在线程块级别重新排序任务,从而优化SSD的吞吐量。通过利用GPU线程块的可预测内存访问模式,CA-Scheduler能够预测SSD的位置,以减少竞争并提高性能。

引言

在当前在移动设备上执行AI模型的范式中,整个模型都被加载到DRAM或HBM中,这一做法显著限制了设备上可高效处理的模型最大规模。例如,一个拥有100亿个参数的模型需要超过5GB的内存来以INT4格式存储其参数。为了解决设备内存大小的限制,最近引入了使用SSD来扩展内存的方法。例如,“LLM in a Flash”[1]研究了使用闪存来高效存储和检索大型语言模型权重的方法。同样,ZnG [9]和BaM [6]也研究了在同一芯片上集成GPU和SSD的硬件技术。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号