用于边缘计算的可持续大语言模型推理：评估量化大语言模型在能效、输出准确性和推理延迟方面的表现

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Internet of Things》：Sustainable LLM Inference for Edge AI: Evaluating Quantized LLMs for Energy Efficiency, Output Accuracy, and Inference Latency

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Internet of Things

编辑推荐：

　　边缘设备部署大语言模型面临算力与能耗挑战，采用PTQ和权重量化技术量化28个模型，评估能效、速度及准确率。基于树莓派4与五个数据集，结合硬件能耗测量，揭示不同量化设置的能效、速度与精度权衡，为资源受限环境提供优化方案。

摘要

在边缘设备上部署大型语言模型（LLMs）面临诸多挑战，这些挑战源于计算资源限制、内存容量不足、推理速度慢以及能耗问题。模型量化已成为一种关键技术，通过减小模型规模和计算开销来提升LLMs的推理效率。在这项研究中，我们全面分析了Ollama库中的28个量化模型，这些模型默认采用了训练后量化（PTQ）和仅针对权重进行量化的方法，并被部署在具有4GB RAM的边缘设备（Raspberry Pi 4）上。我们评估了不同量化级别和任务类型下的能效、推理性能以及输出准确性。这些模型在五个标准化数据集（CommonsenseQA、BIG-Bench Hard、TruthfulQA、GSM8K和HumanEval）上进行了基准测试，并使用高分辨率的硬件能耗测量工具来记录实际功耗。研究结果揭示了在不同量化设置下能效、推理速度和准确性之间的权衡关系，指出了适用于资源受限环境的最佳配置方案。通过将硬件级能耗分析与LLM基准测试相结合，本研究为可持续发展的AI技术提供了实用见解，填补了现有研究中关于节能型LLM部署方面的空白。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号