仅使用整数运算进行推理的可变速率学习图像压缩

《Journal of Visual Communication and Image Representation》:Variable-rate learned image compression with integer-arithmetic-only inference

【字体: 时间:2025年11月08日 来源:Journal of Visual Communication and Image Representation 3.1

编辑推荐:

  基于深度学习的图像压缩(LIC)在率失真性能上优于传统编码器,但面临浮点不一致和计算成本高等部署挑战。本文提出首个全量化可变比特率LIC框架,通过多比特率校准机制和硬件优化(如逐层量化、16位中间累加器),实现纯整数运算,比特率降低19.2%,编码和解码速度分别提升50.5%和52.2%,显著提升边缘设备的部署效率。

  图像压缩技术是现代多媒体系统中不可或缺的一部分,其主要作用在于提高视觉数据的存储和传输效率。传统图像压缩编码器,如JPEG、JPEG2000、WebP、HEVC intra(BPG)以及VVC等,通常依赖于人工设计的模块,包括变换编码、量化和熵编码。这些编码器在多年标准化和优化过程中取得了显著的编码效率提升,例如改进的内预测模式和变换核。然而,由于其模块化设计,各组件通常被独立优化,这种设计在进一步提升性能方面存在一定的局限性。

近年来,学习型图像压缩(Learned Image Compression, LIC)作为一种有前景的替代方案逐渐受到关注。LIC通过深度神经网络实现端到端的优化,能够联合学习非线性分析与合成变换以及概率熵模型,从而在率失真性能方面取得突破性进展。相比传统编码器,LIC在某些配置下甚至能够超越BPG和VVC intra等编码器。这些进展表明,LIC在需要高压缩效率和视觉保真度的实际应用中具有巨大的潜力。

然而,LIC在实际部署中仍面临诸多挑战。首先,LIC模型通常依赖于浮点运算,这会导致在不同硬件平台上的非确定性行为。浮点运算的精度、舍入方式以及算术实现方式存在差异,进而引发解码不一致的问题。在实际应用中,这种不一致性可能导致解码失败,从而产生明显失真或不可用的图像,这对需要高解码可靠性的安全关键型应用或跨平台应用构成了严重障碍。其次,现有LIC框架大多仅支持单一目标码率,难以适应动态调整压缩率的需求。在支持可变码率的场景下,通常需要存储和管理多个模型,这种多模型策略不仅增加了存储开销,还带来了系统复杂性,不利于LIC在移动、嵌入式或云分布式环境中广泛应用。最后,浮点运算的高计算和内存需求进一步限制了LIC在边缘设备或低功耗设备上的部署。没有针对性的优化,传统的LIC模型并不适合在缺乏浮点运算支持的硬件上进行推理。

为了解决上述问题,研究者们尝试了多种基于量化的方法。早期的研究表明,使用整数运算的LIC模型可以在不同设备上实现确定性的行为。然而,这些方法大多局限于固定码率,无法灵活适应可变码率的需求。其他研究则探索了后训练量化(Post-Training Quantization, PTQ)技术,通过选择性地对模型中的某些组件,如熵瓶颈或超先验模型进行量化,从而在一定程度上减少量化引起的失真。然而,这些方法仍然保留了浮点运算,无法实现全整数推理,导致编码器和解码器之间存在细微但不可忽视的输出不匹配。在对误差敏感的应用,如医学诊断中,这种不匹配可能会对结果的完整性造成影响。此外,这些方法并未解决支持可变码率时所需的多模型存储问题,也未能应对不同码率下激活分布的变化。因此,构建一个鲁棒、完全量化且支持可变码率的LIC模型仍然是一个开放且重要的挑战。

为了填补这一空白,我们提出了一种全新的学习型图像压缩框架,该框架不仅支持可变码率压缩,还实现了整数运算推理。据我们所知,这是首个全面解决可变码率LIC模型量化问题的研究工作。我们的方法确保了跨平台的一致性,并提高了硬件效率,同时避免了多模型存储的需求。我们的工作基于Enhanced Variable-Rate Compression(EVRC)模型,并对其进行了一系列量化感知的改进。具体而言,我们引入了一种多码率量化校准机制,为不同的码率级别分配独立的量化参数。这一设计使得我们能够处理不同码率下的特征分布变化,而不会影响模型的性能。此外,我们对模型中的所有权重、偏置、激活值以及非线性函数进行了量化,以实现纯粹的整数推理。为了进一步降低推理复杂度,我们采用了对硬件友好的优化策略,包括逐层量化和统一缩放因子的使用,以及将中间累加器的精度从int32降低到int16。浮点非线性函数被替换为基于整数的近似计算,例如通过查找表和位移操作实现。

本研究的三个主要贡献如下:

1. **首个完全量化的可变码率LIC模型**:我们提出了第一个支持可变码率压缩并能够在所有组件上实现整数运算推理的LIC模型。这一突破使得LIC能够在多种硬件平台上稳定运行,消除了因浮点运算带来的不一致性问题。

2. **量化感知的可变码率适应机制**:我们设计了一种校准和训练流程,引入了针对不同码率级别的多组量化参数。这一机制有效应对了因码率变化而导致的激活分布变化问题,从而在保持性能的同时实现了对不同码率的灵活支持。

3. **高效的硬件实现方案**:我们的方法采用了逐层量化、降低中间累加器精度以及使用整数近似激活函数等策略,使得模型更适合在资源受限的平台上部署。这些优化不仅提升了模型的运行效率,还降低了其对计算资源的依赖,为LIC在边缘设备和低功耗系统中的应用提供了可能。

在与相关研究的比较中,我们发现现有方法在支持可变码率和整数运算推理方面存在明显不足。许多研究仅实现了部分量化,或者仅支持固定码率,而我们的方法在保证性能的同时,实现了全整数量化和可变码率支持。此外,我们通过降低中间精度和采用硬件友好的优化策略,进一步提升了模型的运行效率,使其更适用于实际应用场景。

为了验证我们方法的有效性,我们进行了广泛的实验测试。实验结果表明,我们的全8位量化模型在标准测试集上相比VTM-17.2的内编码实现了19.2%的码率降低。同时,在编码和解码过程中,分别实现了50.5%和52.2%的速度提升。这些结果不仅证明了我们方法在压缩效率和运行速度方面的优势,还展示了其在实际部署中的可行性。

在实现整数运算推理的过程中,我们特别关注了模型的各个组件,确保其在量化后仍能保持良好的性能。整数运算推理的实现主要包括以下几个关键步骤:首先,对模型的权重和偏置进行量化,以适应整数运算的需求;其次,对激活函数进行量化处理,使其能够在整数域内运行;最后,对非线性函数进行整数近似,例如通过查找表和位移操作替代浮点运算。这些步骤不仅保证了模型的运行效率,还减少了对高精度计算资源的依赖。

在训练配置方面,我们采用了与EVRC框架一致的方法,对模型进行训练。训练过程中,我们优化了率失真目标函数,以在压缩效率和图像质量之间取得平衡。这一目标函数的优化不仅提升了模型的性能,还确保了其在不同码率下的适应能力。此外,我们还对模型的各个部分进行了细致的调整,以确保其在量化后的稳定性和一致性。

综上所述,我们的研究为学习型图像压缩技术提供了一种全新的解决方案,克服了传统方法在可变码率支持和整数运算推理方面的不足。通过引入量化感知的可变码率适应机制和硬件友好的优化策略,我们的方法在保持高性能的同时,显著降低了对计算资源的需求,为LIC在实际应用中的广泛部署提供了坚实的基础。未来,我们计划进一步探索该方法在更多应用场景中的潜力,并推动其在实际系统中的应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号