生成式图像压缩中基于最优真实度水平预测的区域自适应重建方法
《Pattern Recognition》:Generative Image Compression by Prediction of Optimal Realism Levels
【字体:
大
中
小
】
时间:2025年10月16日
来源:Pattern Recognition 7.6
编辑推荐:
本研究针对生成式图像压缩(LIC)中失真-真实度权衡的优化难题,提出了一种基于空间真实度图预测的新型压缩模型。通过设计两阶段训练框架和真实度注入模块,实现了区域自适应的最优真实度控制。实验表明该方法在保持PSNR指标的同时,显著提升了LPIPS和FID等感知质量指标,为智能图像压缩提供了新思路。
在数字图像爆炸式增长的时代,高效压缩技术已成为视觉数据存储和传输的基石。传统编码算法如JPEG虽然广泛应用,但近年来基于深度学习的图像压缩(LIC)方法展现出更优的率失真性能,甚至超越了最新标准编解码器VVC。然而,如何在压缩过程中平衡失真度与视觉真实度,始终是困扰研究人员的核心难题——过度追求低失真会导致纹理模糊,而强调真实度又会增加失真指标。这种"鱼与熊掌不可兼得"的困境,在生成式LIC方法中尤为突出。
现有解决方案多采用单一真实度水平控制整个图像,如同给整幅画作涂抹同一浓度的颜料,无法适应不同区域的特性差异。更麻烦的是,用户需要反复调试才能找到合适的平衡点,既耗时又低效。正是洞察到这一局限性,东北大学的研究团队在《Pattern Recognition》上发表了创新性研究,通过预测空间变化的真实度水平,实现了"因地制宜"的图像重建新范式。
研究团队开发的核心技术包括:1)构建带有真实度图预测器的压缩模型架构,其中编码器-解码器结构采用注意力机制和残差块,真实度注入模块通过仿射变换实现特征层面的空间自适应控制;2)设计两阶段训练策略,先固定真实度图训练基础压缩模型,再单独训练预测器优化区域真实度分配;3)利用对抗训练框架结合率失真损失(Lrate)、重建损失(Lrec)、感知损失(Lper)和对抗损失(Ladv)的多目标优化。实验使用OpenImages作为训练集,CLIC2020、DIV2K和Kodak作为测试集,从公开数据集中随机选取高分辨率图像进行模型验证。
与HiFiC、Multi-Realism等GAN基方法以及HFD、DIRAC等扩散模型相比,新方法在LPIPS指标上取得显著优势(降低约10%),在PSNR和FID指标上保持竞争力。视觉对比显示,该方法能有效重建自然纹理,减少模糊和伪影。
相比固定真实度水平的基线模型,真实度图预测使LPIPS从0.0758降至0.0754,FID从12.5降至12.3。区域自适应机制避免了均匀控制导致的局部质量损失,如高频区域的细节缺失和低频区域的过度合成。
通过对Kodak图像进行分块实验发现,最优真实度水平随区域内容剧烈变化:纹理复杂区域需要较高真实度(t>0.7),而平滑区域适宜低真实度(t<0.3)。这证实了空间自适应控制的必要性。
可视化结果显示,预测器能自动识别高频区域(如建筑边缘)并分配较高真实度值,对低频区域(如天空)则分配较低值,与视觉重要性分布高度吻合。
超参数搜索确定Lper=150、Ladv=100时权衡效果最佳;损失函数对比表明单独使用Lper训练预测器优于组合损失;真实度图尺寸实验证明1/2分辨率下性能最优。
这项研究突破了生成式图像压缩的固有范式,通过引入空间真实度图预测机制,首次实现了区域级别的失真-真实度权衡优化。该方法不仅显著提升主观视觉质量,更开创了内容自适应压缩的新方向。其提出的两阶段训练框架解决了端到端训练不稳定的难题,真实度注入模块为多模态控制提供了可扩展接口。未来,结合扩散模型等先进生成技术,以及探索语义引导的真实度分配策略,将进一步推动智能压缩技术向人性化、智能化方向发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号