
-
生物通官微
陪你抓住生命科技
跳动的脉搏
一种考虑竞争因素的GPU线程块调度器,用于提升GPU与SSD之间的数据传输效率
《IEEE Computer Architecture Letters》:Contention-Aware GPU Thread Block Scheduler for Efficient GPU-SSD
【字体: 大 中 小 】 时间:2025年11月13日 来源:IEEE Computer Architecture Letters 1.4
编辑推荐:
大语言模型在移动设备上的高效处理面临内存限制,本文提出基于BSP GPU编程模型的CA-Scheduler调度方案,通过预判SSD存储位置和优化线程块工作顺序减少内存冲突,提升GPU-SSD协同吞吐量。
在当前在移动设备上执行AI模型的范式中,整个模型都被加载到DRAM或HBM中,这一做法显著限制了设备上可高效处理的模型最大规模。例如,一个拥有100亿个参数的模型需要超过5GB的内存来以INT4格式存储其参数。为了解决设备内存大小的限制,最近引入了使用SSD来扩展内存的方法。例如,“LLM in a Flash”[1]研究了使用闪存来高效存储和检索大型语言模型权重的方法。同样,ZnG [9]和BaM [6]也研究了在同一芯片上集成GPU和SSD的硬件技术。
生物通微信公众号
知名企业招聘