基于多尺度因子的单模型自适应图像压缩方法研究

【字体: 时间:2025年07月28日 来源:Journal of Visual Communication and Image Representation 2.6

编辑推荐:

  本文针对学习型图像压缩方法存在的训练时间长、内存占用大等问题,提出了一种基于多尺度因子的单模型可变速率压缩方法。通过引入多增益单元和量化步长等缩放因子,实现了在不重新训练模型情况下的连续速率适配,并在CNN、Transformer及混合模型上验证了其优越性能。该研究为多媒体领域提供了高效灵活的压缩解决方案,具有重要应用价值。

  

在数字媒体爆炸式增长的时代,图像压缩技术如同一位"空间魔术师",不断挑战着存储与传输的极限。传统压缩方法如JPEG和JPEG2000虽然广泛应用,却在高压缩率下暴露出明显的块效应和模糊问题。随着深度学习的崛起,基于神经网络的压缩方法展现出巨大潜力,但一个棘手的难题始终存在:现有方法需要为每个比特率训练独立模型,导致训练成本呈指数级增长,就像为每个客人单独准备餐具的宴会,既浪费资源又效率低下。

日本早稻田大学(Waseda University)的研究团队在《Journal of Visual Communication and Image Representation》发表的研究中,创新性地提出了"多尺度因子"解决方案。该方法通过多增益单元(multi-gain units)和量化步长的协同作用,使单个模型能够像"变形金刚"一样自适应不同压缩需求。关键技术包括:1)在CNN/Transformer混合架构中嵌入可调节的缩放因子;2)针对通道熵模型的不均匀性设计量化补偿机制;3)采用线性插值实现连续速率适配。实验使用ImageNet数据集子集,在NVIDIA RTX 3090 GPU集群上验证了方法的普适性。

【Lossy image compression】
研究团队系统回顾了从Ballé2018的超先验网络到Minnen的上下文模型发展历程,指出现有方法在潜在表征冗余消除方面的局限性。

【Method】
提出双管齐下的解决方案:多增益单元负责调节编解码器特征重要性,量化步长精确控制量化误差。特别设计了通道级补偿机制,为每个特征切片分配独立步长,解决了传统CC(Channel-Wise Conditional)模型的均匀量化缺陷。

【Settings】
在TCM(Transformer-CNN Mixed)模型框架下,通过λ∈{0.0025-0.050}的拉格朗日乘数实验证实:固定权重分配(如仅用最高/最低λ)会导致性能下降约1.5dB,而动态调节策略能保持稳定的率失真(R-D)性能。

【Impact of different weighted assignment】
对比实验显示,传统单λ训练模型的PSNR波动达3.2dB,而新方法通过插值实现了平滑过渡,在0.025bpp时BD-Rate(Bj?ntegaard Delta Rate)改善达12.7%。

【Conclusion】
这项研究突破了单模型固定比特率的限制,其创新点在于:1)首次在Transformer架构实现连续速率适配;2)发现并解决了CC模型的特征切片不均匀问题;3)仅增加0.3%参数即支持全范围比特率调节。正如论文通讯作者Jiro Katto指出,该方法为5G时代的实时媒体传输提供了关键技术支撑,其模块化设计尤其适合边缘计算场景。资助信息显示,该研究获得了JSPS KAKENHI(JP23K1686)等多项日本科研基金支持,体现了产学研结合的鲜明特色。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号