用于边缘计算的可持续大语言模型推理:评估量化大语言模型在能效、输出准确性和推理延迟方面的表现
《ACM Transactions on Internet of Things》:Sustainable LLM Inference for Edge AI: Evaluating Quantized LLMs for Energy Efficiency, Output Accuracy, and Inference Latency
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Internet of Things
编辑推荐:
边缘设备部署大语言模型面临算力与能耗挑战,采用PTQ和权重量化技术量化28个模型,评估能效、速度及准确率。基于树莓派4与五个数据集,结合硬件能耗测量,揭示不同量化设置的能效、速度与精度权衡,为资源受限环境提供优化方案。
摘要
在边缘设备上部署大型语言模型(LLMs)面临诸多挑战,这些挑战源于计算资源限制、内存容量不足、推理速度慢以及能耗问题。模型量化已成为一种关键技术,通过减小模型规模和计算开销来提升LLMs的推理效率。在这项研究中,我们全面分析了Ollama库中的28个量化模型,这些模型默认采用了训练后量化(PTQ)和仅针对权重进行量化的方法,并被部署在具有4GB RAM的边缘设备(Raspberry Pi 4)上。我们评估了不同量化级别和任务类型下的能效、推理性能以及输出准确性。这些模型在五个标准化数据集(CommonsenseQA、BIG-Bench Hard、TruthfulQA、GSM8K和HumanEval)上进行了基准测试,并使用高分辨率的硬件能耗测量工具来记录实际功耗。研究结果揭示了在不同量化设置下能效、推理速度和准确性之间的权衡关系,指出了适用于资源受限环境的最佳配置方案。通过将硬件级能耗分析与LLM基准测试相结合,本研究为可持续发展的AI技术提供了实用见解,填补了现有研究中关于节能型LLM部署方面的空白。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号