针对边缘设备的自监督语音变换器的延迟感知剪枝与量化

《ACM Transactions on Embedded Computing Systems》:Latency-Aware Pruning and Quantization of Self-Supervised Speech Transformers for Edge Devices

【字体: 时间:2025年11月08日 来源:ACM Transactions on Embedded Computing Systems

编辑推荐:

  针对自监督语音Transformer在边缘设备部署受限的问题,本文提出延迟感知的压缩框架,结合动态结构化剪枝与量化,有效降低计算开销,实验表明在Hikey970平台实现4.2倍加速,资源节省显著,且无需微调数据仍保持高精度。

  

摘要

自监督学习Transformer在语音处理(speech SSL)领域的应用日益广泛,但其高昂的计算和内存需求限制了其在资源受限的边缘设备上的部署。我们提出了一种考虑延迟的压缩框架,该框架结合了结构化剪枝和量化技术来应对这些挑战。该框架基于一个延迟模型,该模型综合考虑了剪枝和量化的综合效应,能够动态识别并移除不太关键的模块,同时保持任务性能,避免了以往方法中过度剪枝或剪枝不足导致的效率低下问题。与以往仅专注于训练后压缩(无需微调数据)或仅在有微调数据情况下适用的方法不同,我们的方法在这两种环境下均表现出色。实验结果表明,在通用压缩任务中,我们的方法在Hikey970边缘开发平台上实现了4.2倍的加速效果,在大多数任务中优于以往的通用剪枝方法,并且仅需要21–24小时的GPU计算时间——相比以往方法减少了3倍的时间成本。此外,通过使用特定于任务的剪枝方法,我们的方法将词错误率降低到了7.8%,同时在GFLOPs计算开销方面相比以往的特定任务方法减少了约19.4%。最后,即使在没有微调数据的情况下,我们的方法在各种延迟加速约束下也能持续保持比最先进的训练后压缩方法更高的准确率。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号