
-
生物通官微
陪你抓住生命科技
跳动的脉搏
一种用于在资源受限平台上加速LVM推理的线程级流调度方法
《ACM Transactions on Embedded Computing Systems》:A Thread-level Stream Scheduling Method for Accelerating LVMs' Inference on a Resource-constrained Platform
【字体: 大 中 小 】 时间:2025年11月08日 来源:ACM Transactions on Embedded Computing Systems
编辑推荐:
模型量化压缩后部署于集成CPU/GPU边缘设备,虽降低模型计算需求却导致GPU资源利用率不足。本文通过分析集成设备模型推理数据流向,设计CPU-GPU统一内存管理机制,并开发线程级流调度算法,使GPU利用率提升30%以上,推理吞吐量达TensorRT默认调度方法的2-10倍,实现边缘实时推理。
生物通微信公众号
知名企业招聘