在多核DSP上优化OpenCL屏障同步和内存效率

《ACM Transactions on Architecture and Code Optimization》:Optimizing OpenCL Barrier Synchronization and Memory Efficiency on Multi-Core DSPs

【字体: 时间:2025年11月08日 来源:ACM Transactions on Architecture and Code Optimization

编辑推荐:

  针对异构CPU-DSP平台OpenCL代码性能不稳定的难题,提出OctoCL框架通过变量展开优化减少屏障同步开销,并自动合并内存访问为DSP-DMA操作。在18个基准测试中,平均加速比达1.46倍(最高3.36倍),实现性能跨平台移植且无需代码修改。

  

摘要

结合了CPU和DSP的异构平台具有实现能效计算的潜力,但编程难度较大。OpenCL能够实现代码在不同处理器之间的移植,但由于屏障同步和本地内存管理方面的独特挑战,无法保证在DSP上的性能可移植性。本文介绍了OctoCL,这是一个基于编译器的框架,通过两项关键优化措施解决了这些问题:(1)基于重新计算的变量扩展技术,以减少屏障同步的开销;(2)自动将内存访问模式合并为DSP-DMA操作,从而实现高效的数据传输。我们使用Parboil和Rodinia套件中的18个OpenCL基准测试对OctoCL进行了评估。实验结果表明,在FT-M7032 CPU-DSP平台上,OctoCL的平均加速比达到了1.46倍(最高可达3.36倍)。这些优化在保持向后兼容性的同时提升了性能可移植性,且无需对代码进行手动修改。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号