Q-Infer:通过基于稀疏性的动态调度实现高效的GPU-CPU协同大语言模型推理

《ACM Transactions on Architecture and Code Optimization》:Q-Infer: Towards Efficient GPU-CPU Collaborative LLM Inference via Sparsity-Aware Dynamic Scheduling

【字体: 时间:2025年11月08日 来源:ACM Transactions on Architecture and Code Optimization

编辑推荐:

  Q-Infer通过动态参数缓存、多窗口重要token选择及GPU-CPU协作优化,有效缓解LLM推理的GPU内存限制,在提升吞吐量的同时保持高准确率,适用于多种硬件配置和工作负载。

  

摘要

大型语言模型(LLMs)引发了新一轮令人兴奋的AI应用浪潮,然而它们庞大的模型规模在推理过程中会带来显著的计算和存储成本。将模型参数卸载到CPU上,并进行GPU-CPU协同推理是一种极具成本效益的策略,可以有效缓解GPU内存的限制。然而,当前的解决方案在延迟和吞吐量之间难以取得平衡,并且在不同的工作负载和配置下会出现精度损失和性能波动的问题。
在本文中,我们提出了Q-Infer,这是一种高效的GPU-CPU协同推理系统,通过多项优化显著提升了LLM推理的性能和质量:1) Q-Infer利用模型的稀疏性和局部性,为关键参数设计了动态缓存策略;2) Q-Infer采用基于多窗口的方法来选择重要数据,从而在保持高精度的同时减少了KV缓存的使用;3) Q-Infer开发了一种新颖的GPU-CPU协同推理和动态调度策略,以在不同环境中提升性能。我们使用多种模型和不同的硬件配置对Q-Infer进行了评估,结果表明,与现有的GPU-CPU系统相比,Q-Infer在保持模型精度的同时具有更出色的推理性能。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号