一种用于在资源受限平台上加速LVM推理的线程级流调度方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Embedded Computing Systems》：A Thread-level Stream Scheduling Method for Accelerating LVMs' Inference on a Resource-constrained Platform

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Embedded Computing Systems

编辑推荐：

　　模型量化压缩后部署于集成CPU/GPU边缘设备，虽降低模型计算需求却导致GPU资源利用率不足。本文通过分析集成设备模型推理数据流向，设计CPU-GPU统一内存管理机制，并开发线程级流调度算法，使GPU利用率提升30%以上，推理吞吐量达TensorRT默认调度方法的2-10倍，实现边缘实时推理。

摘要

作为新一代的边缘设备，集成CPU/GPU架构为部署不同规模的视觉模型带来了新的机遇。为了减少模型在集成设备上的推理时间，本文首先采用模型量化技术对深度学习模型进行压缩。量化过程大幅降低了模型的计算需求，使其能够在嵌入式开发板上进行部署。然而，量化也会导致集成设备在推理过程中GPU资源的利用率降低，从而影响推理速度。为了解决这一问题，本文首先描述了模型在集成设备内的数据流处理过程；其次，基于内存管理策略实现了CPU与GPU之间的统一内存管理；最后，设计了一种线程级别的流式调度方法，以提升模型推理过程中的GPU资源利用率和吞吐量。实验结果表明，与TensorRT的默认调度方法相比，所提出的方法使吞吐量提高了2到10倍，这对于在边缘设备上实现实时推理任务至关重要。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号