一种用于在资源受限平台上加速LVM推理的线程级流调度方法

《ACM Transactions on Embedded Computing Systems》:A Thread-level Stream Scheduling Method for Accelerating LVMs' Inference on a Resource-constrained Platform

【字体: 时间:2025年11月08日 来源:ACM Transactions on Embedded Computing Systems

编辑推荐:

  模型量化压缩后部署于集成CPU/GPU边缘设备,虽降低模型计算需求却导致GPU资源利用率不足。本文通过分析集成设备模型推理数据流向,设计CPU-GPU统一内存管理机制,并开发线程级流调度算法,使GPU利用率提升30%以上,推理吞吐量达TensorRT默认调度方法的2-10倍,实现边缘实时推理。

  

摘要

作为新一代的边缘设备,集成CPU/GPU架构为部署不同规模的视觉模型带来了新的机遇。为了减少模型在集成设备上的推理时间,本文首先采用模型量化技术对深度学习模型进行压缩。量化过程大幅降低了模型的计算需求,使其能够在嵌入式开发板上进行部署。然而,量化也会导致集成设备在推理过程中GPU资源的利用率降低,从而影响推理速度。为了解决这一问题,本文首先描述了模型在集成设备内的数据流处理过程;其次,基于内存管理策略实现了CPU与GPU之间的统一内存管理;最后,设计了一种线程级别的流式调度方法,以提升模型推理过程中的GPU资源利用率和吞吐量。实验结果表明,与TensorRT的默认调度方法相比,所提出的方法使吞吐量提高了2到10倍,这对于在边缘设备上实现实时推理任务至关重要。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号