在多核DSP上优化OpenCL屏障同步和内存效率
《ACM Transactions on Architecture and Code Optimization》:Optimizing OpenCL Barrier Synchronization and Memory Efficiency on Multi-Core DSPs
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Architecture and Code Optimization
编辑推荐:
针对异构CPU-DSP平台OpenCL代码性能不稳定的难题,提出OctoCL框架通过变量展开优化减少屏障同步开销,并自动合并内存访问为DSP-DMA操作。在18个基准测试中,平均加速比达1.46倍(最高3.36倍),实现性能跨平台移植且无需代码修改。
摘要
结合了CPU和DSP的异构平台具有实现能效计算的潜力,但编程难度较大。OpenCL能够实现代码在不同处理器之间的移植,但由于屏障同步和本地内存管理方面的独特挑战,无法保证在DSP上的性能可移植性。本文介绍了OctoCL,这是一个基于编译器的框架,通过两项关键优化措施解决了这些问题:(1)基于重新计算的变量扩展技术,以减少屏障同步的开销;(2)自动将内存访问模式合并为DSP-DMA操作,从而实现高效的数据传输。我们使用Parboil和Rodinia套件中的18个OpenCL基准测试对OctoCL进行了评估。实验结果表明,在FT-M7032 CPU-DSP平台上,OctoCL的平均加速比达到了1.46倍(最高可达3.36倍)。这些优化在保持向后兼容性的同时提升了性能可移植性,且无需对代码进行手动修改。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号