用于边缘计算的可持续大语言模型推理:评估量化大语言模型在能效、输出准确性和推理延迟方面的表现

《ACM Transactions on Internet of Things》:Sustainable LLM Inference for Edge AI: Evaluating Quantized LLMs for Energy Efficiency, Output Accuracy, and Inference Latency

【字体: 时间:2025年11月08日 来源:ACM Transactions on Internet of Things

编辑推荐:

  边缘设备部署大语言模型面临算力与能耗挑战,采用PTQ和权重量化技术量化28个模型,评估能效、速度及准确率。基于树莓派4与五个数据集,结合硬件能耗测量,揭示不同量化设置的能效、速度与精度权衡,为资源受限环境提供优化方案。

  

摘要

在边缘设备上部署大型语言模型(LLMs)面临诸多挑战,这些挑战源于计算资源限制、内存容量不足、推理速度慢以及能耗问题。模型量化已成为一种关键技术,通过减小模型规模和计算开销来提升LLMs的推理效率。在这项研究中,我们全面分析了Ollama库中的28个量化模型,这些模型默认采用了训练后量化(PTQ)和仅针对权重进行量化的方法,并被部署在具有4GB RAM的边缘设备(Raspberry Pi 4)上。我们评估了不同量化级别和任务类型下的能效、推理性能以及输出准确性。这些模型在五个标准化数据集(CommonsenseQA、BIG-Bench Hard、TruthfulQA、GSM8K和HumanEval)上进行了基准测试,并使用高分辨率的硬件能耗测量工具来记录实际功耗。研究结果揭示了在不同量化设置下能效、推理速度和准确性之间的权衡关系,指出了适用于资源受限环境的最佳配置方案。通过将硬件级能耗分析与LLM基准测试相结合,本研究为可持续发展的AI技术提供了实用见解,填补了现有研究中关于节能型LLM部署方面的空白。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号