Q-Infer：通过基于稀疏性的动态调度实现高效的GPU-CPU协同大语言模型推理

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Architecture and Code Optimization》：Q-Infer: Towards Efficient GPU-CPU Collaborative LLM Inference via Sparsity-Aware Dynamic Scheduling

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Architecture and Code Optimization

编辑推荐：

　　Q-Infer通过动态参数缓存、多窗口重要token选择及GPU-CPU协作优化，有效缓解LLM推理的GPU内存限制，在提升吞吐量的同时保持高准确率，适用于多种硬件配置和工作负载。

摘要

大型语言模型（LLMs）引发了新一轮令人兴奋的AI应用浪潮，然而它们庞大的模型规模在推理过程中会带来显著的计算和存储成本。将模型参数卸载到CPU上，并进行GPU-CPU协同推理是一种极具成本效益的策略，可以有效缓解GPU内存的限制。然而，当前的解决方案在延迟和吞吐量之间难以取得平衡，并且在不同的工作负载和配置下会出现精度损失和性能波动的问题。

在本文中，我们提出了Q-Infer，这是一种高效的GPU-CPU协同推理系统，通过多项优化显著提升了LLM推理的性能和质量：1) Q-Infer利用模型的稀疏性和局部性，为关键参数设计了动态缓存策略；2) Q-Infer采用基于多窗口的方法来选择重要数据，从而在保持高精度的同时减少了KV缓存的使用；3) Q-Infer开发了一种新颖的GPU-CPU协同推理和动态调度策略，以在不同环境中提升性能。我们使用多种模型和不同的硬件配置对Q-Infer进行了评估，结果表明，与现有的GPU-CPU系统相比，Q-Infer在保持模型精度的同时具有更出色的推理性能。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号