在GPU上推进矩阵运算,以实现高性能和高效利用内存的自动机处理

《ACM Transactions on Architecture and Code Optimization》:Advancing Matrix Operations for High-Performance and Memory-Efficient Automata Processing on GPUs

【字体: 时间:2025年11月08日 来源:ACM Transactions on Architecture and Code Optimization

编辑推荐:

  有限状态自动机(FSA)在高效计算中面临内存与计算瓶颈,本研究提出GPU加速方案:通过矩阵去重、交错重编号和状态缓存优化,实现6.54倍性能提升,内存占用低于2%。

  

摘要

有限状态自动机在模式匹配和数据分析等众多领域中至关重要,这些领域对高吞吐量有严格要求。最近的研究探索了将自动机执行过程表示为矩阵代数,并利用CPU的BLAS(基本线性代数子程序)库。尽管这种方法具有潜力,但存在内存使用、数据局部性以及冗余计算等方面的瓶颈。本研究系统地识别了这些瓶颈,并针对它们开发了特定的优化措施。
由于GPU具有强大的计算能力和广泛的可用性,我们重点关注GPU。为了解决这些挑战,我们提出了三种关键技术来提高计算和内存效率:(1)通过消除转移矩阵中的重复项来减少内存使用;(2)通过交错重新编号状态来提高GPU线程的利用率;(3)通过缓存状态向量来消除冗余计算。详细评估表明,所提出的解决方案在性能上可与基于GPU的自动机引擎相媲美(最高提速达6.54倍),同时其内存占用量不到后者的2%;在处理自动机相关工作负载时,其性能甚至优于最先进的领域专用加速器(最高提速达965倍)。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号